Внедрение искусственного интеллекта может потерпеть неудачу, если организация не структурировала свои команды, чтобы преодолеть разрыв между новыми возможностями и знаниями в предметной области, пишет на портале The New Stack Тайлер Филипс, главный менеджер по продуктам Apollo.io.

Большую часть своей карьеры я считал, что техническая изощренность — это ключ к решению сложных проблем. Будучи приверженцем ИИ и руководителем в этой области, я был убежден, что самая продвинутая модель, самая сложная архитектура всегда победят. Но мой опыт масштабирования ИИ-решений преподал мне радикально другой урок: самый важный фактор успеха с ИИ — это не технология, а глубокое понимание человеческого рабочего процесса, который вы хотите дополнить с помощью ИИ.

Мой карьерный путь начался в окопах пресейла, когда я наблюдал, как команды боролись с многочасовыми ручными исследованиями и задачами по работе с клиентами. Специалисты по продажам тонули в данных, но им не хватало значимых связей. Традиционные инструменты автоматизации выглядели грубыми: быстрыми, но в корне оторванными от тонкого искусства человеческого общения.

После того как ИИ-функционал охватил 54 000 наших еженедельных активных пользователей (5-кратный рост в 2024 г.), наша команда сделала неожиданное открытие. Успех нашей реализации ИИ был мало связан с тем, какие модели мы выбрали или насколько сложной была наша архитектура. Вместо этого определяющими факторами стали наша организационная структура, методология оценки и интеграция знаний и опыта специалистов по продажам.

Пробелы в инфраструктуре оценки качества

Самая удивительная реальность, которую мы обнаружили во время нашего путешествия в мир ИИ? Для создания успешных ИИ-приложений требуется инфраструктура оценки, которую большинство команд совершенно не учитывают.

Как и многие другие команды, мы начинали с того, что запускали приложения, исходя из своих ощущений: если в ходе тестирования приложение выглядело хорошо, мы его отправляли в продакшн. Такой подход неизбежно дает сбой, как только вы выходите за рамки внутренних пользователей или ранних последователей. В итоге мы разработали четырехмерную систему оценки результата работы ИИ по следующим параметрам:

  • Точность. Согласуется ли он с проверенной информацией?
  • Релевантность. Соответствует ли он конкретному сценарию использования?
  • Ясность. Является ли он кратким и понятным?
  • Тон. Соответствует ли он принятому стилю общения?

Каждый параметр оценивается по шкале от 1 до 3 экспертами в предметной области. Ни один продукт не отправляется в продакшн, не набрав минимальный суммарный балл 2,5/3.

Эта система оценки стала нашим конкурентным преимуществом, обеспечив стабильное качество при масштабировании от сотен до десятков тысяч пользователей.

Организационная схема, которая работает: предметные эксперты направляют, инженеры поддерживают

Путем мучительных итераций мы обнаружили контринтуитивную истину: инженеры — не те люди, которые должны писать подсказки, несмотря на их технический опыт работы с системами ИИ.

Инженеры по машинному обучению отлично разбираются в архитектуре систем и интеграции API, но с трудом могут передать в подсказках знания, относящиеся к конкретной области. Волшебство происходит, когда созданием подсказок занимаются профильные эксперты.

Это понимание привело нас к созданию специальной роли «составителя подсказок», которую выполняют не инженеры, а эксперты в области продаж. После этой организационной перестановки удовлетворенность пользователей выросла в 1,34 раза.

Гибридная структура команды, которая оказалась для нас наиболее эффективной:

Роль Основная ответственность
Инженеры Инфраструктура, API, мониторинг
Составители подсказок Создание предметных подсказок
Команда обеспечения качества Системы и метрики оценки
Предметные специалисты Тестирование и аннотирование в реальных условиях

Проблема пользовательского опыта: доверие через прозрачность

Пользователи по умолчанию не доверяют системам ИИ, несмотря на то что технические руководители могут на это надеяться. Когда наш первоначальный ИИ-продукт потребовал навыков инженерии подсказок, его внедрение полностью остановилось.

Мы поняли, что внедрение ИИ происходит по кривой доверия, а не по кривой возможностей. Пользователям нужно проверить результаты, прежде чем полагаться на них.

Мы перестроились, внедрив:

  1. Подсказки на естественном языке.
  2. Цитирование источников для всех утверждений.
  3. Индикаторы достоверности для результатов.
  4. Опции ручной отмены в один клик.

Эти изменения привели к 3-кратному росту числа еженедельных активных пользователей не потому, что улучшились базовые возможности ИИ, а потому, что интерфейс стал вызывать доверие.

Опыт внедрения: три закономерности успеха

После масштабирования нашей платформы ИИ до 54 000 еженедельных активных пользователей и работы с сотнями компаний, внедряющих ИИ, мы выявили три закономерности, которые отличают успешные внедрения:

  • Заработайте право на автоматизацию. Большинство инженерных команд спешат создать полностью автономные системы ИИ, но наши данные показывают, что пользователи предпочитают иметь возможность ручной проверки. Когда мы внедрили механизмы отмены в один клик и индикаторы доверия, количество пользователей увеличилось в 3 раза. Сначала создайте механизмы доверия, а затем постепенно повышайте уровень автоматизации по мере роста доверия пользователей.
  • Отдавайте предпочтение знаниям в предметной области, а не техническим изыскам. Альфа-фаза в создании ИИ-продуктов начинается не с использования новейшего агентного фреймворка или большой языковой модели (LLM) — она начинается с привлечения экспертов в предметной области, которые внедряют в вашу систему лучшие практики. Наше слепое тестирование моделей показало, что Claude Haiku 3.5 постоянно превосходит гораздо более крупные модели для наших конкретных сценариев использования в продажах, несмотря на то, что она меньше и дешевле. Модель имеет меньшее значение, чем то, насколько хорошо ваша команда понимает проблемную область.
  • Операционализируйте свое определение качества. Большинство команд используют субъективные «ощущения» для оценки результатов работы ИИ на ранних этапах, но при масштабировании такой подход рушится. Внедрив нашу систему оценки по четырем параметрам (точность, релевантность, ясность, тон) с определенными пороговыми значениями (минимум 2,5/3), мы создали объективную систему оценки качества, которая позволила добиться стабильных результатов даже при 5-кратном росте нашей пользовательской базы. Без количественных показателей качества продукты ИИ неизбежно дрейфуют в сторону несоответствия.

Что ждет команды разработчиков ИИ

Какова новая реальность? Внедрение ИИ терпит неудачу не из-за технических ограничений, а потому, что организация не структурировала свои команды, чтобы преодолеть разрыв между новыми возможностями и предметной экспертизой.

Следующая волна успешных ИИ-продуктов будет формироваться не командами, спешащими внедрить новейшую модельную архитектуру. Она будет сформирована командами, которые создадут правильную организационную структуру, систему оценки и механизмы доверия для обеспечения постоянной ценности в масштабе.