Как только вы перестанете требовать от моделей искусственного интеллекта понимания всего на свете, они начнут гораздо лучше понимать то, что действительно важно, пишет на портале The New Stack Шон Фалконер, предприниматель-резидент (EIR) в области ИИ в компании Confluent.

Корпоративный ИИ унаследовал потребительский подход к ИИ, но он не подходит для большинства задач в сфере B2B.

В потребительском мире привлекательность генеративного ИИ заключается в его роли всезнающего полимата. Один интерфейс может написать стихотворение, отладить код, спланировать отпуск и ответить на вопросы викторины, собранные из общедоступного Интернета. Это имеет смысл в открытом мире, где диапазон возможных вопросов неограничен, а успех субъективен.

Когда ИИ должен обрабатывать все, что может спросить пользователь, масштабирование становится стратегией. Модели с триллионами параметров, работающие на максимально доступных вычислительных мощностях, — это не излишество, а просто необходимость.

Различия между потребительским и бизнес-ИИ

Большинство бизнес-процессов не существует в открытом мире. Они работают в закрытых системах с четко определенными входными данными, явными выходными данными и жесткими режимами отказа. Счет-фактура либо обрабатывается правильно, либо нет. Заявка в службу поддержки либо направляется правильно, либо нет. Это не проблемы, возникающие в ходе диалога; это операционные проблемы, где пространство допустимых действий известно заранее, а стоимость ошибки измерима.

Использование универсальной большой языковой модели (LLM) для этих конкретных бизнес-функций часто приводит к несоответствию масштабу. Модель, обученная отвечать на любой вопрос, редко является подходящим инструментом для задач с известными входными данными и ожидаемыми выходными результатами. Для таких задач, как классификация пунктов в юридических контрактах или составление кратких обзоров звонков для взаимодействия с клиентами, преимущество заключается в сфокусированности, а не в широте охвата.

Малые языковые модели (SLM) разработаны с учетом этого ограничения, они обеспечивают понимание языка, соответствующее форме работы. Это модели, которые поддерживают гибкий интеллект естественного языка без огромных вычислительных затрат и непомерных расходов, характерных для универсальных гигантов. В отличие от жестких, основанных на правилах систем прошлого, которые ломались при обнаружении опечатки, SLM достаточно гибки, чтобы обрабатывать нюансы человеческого языка, оставаясь при этом «соответствующими назначению» в конкретной задаче. Пожертвовав общностью ради точности, они обеспечивают надежность, предсказуемость и контроль, которые требуются производственным системам.

Малые языковые модели: интеллект замкнутого мира

На техническом уровне SLM используют меньше параметров и гораздо более целевые обучающие данные. В то время как LLM, такая как GPT-4, работает с триллионами параметров для хранения общих знаний, SLM обычно содержит от 1 млн. до 20 млрд. параметров. Такая «оптимизация размера» позволяет модели сосредоточить свои нейронные ресурсы на логике, необходимой для конкретных профессиональных рабочих процессов, а не на нерелевантных данных из обширного веба.

Архитектуры SLM оптимизированы для скорости, эффективности и согласованности, а не для максимальной обобщающей способности. В результате получаются модели, которые понимают язык, но только в тех пределах, которые имеют значение.

Именно это понимание границ отличает SLM от уменьшенных LLM. Меньшее количество параметров само по себе не делает модель подходящей для корпоративного использования. Важно, чтобы возможности модели соответствовали форме решаемой задачи. В условиях замкнутого мира избыточная обобщающая способность часто работает против точности. У такой модели больше возможностей ошибиться.

Недавние тесты наглядно это иллюстрируют.

Модели, такие как Phi-3 от Microsoft, демонстрируют, что компактные, специально разработанные системы могут обеспечивать конкурентоспособную, а в некоторых случаях и превосходную производительность в задачах с ограничениями, таких как следование инструкциям, классификация и структурированное рассуждение. В таких тестах, как Massive Multitask Language Understanding (MMLU) и MT-Bench, варианты Phi-3 приближаются к гораздо более крупным моделям или не уступают им, когда пространство задач четко определено. Это показывает, что дополнительные параметры дают все меньшую отдачу в ограниченных средах.

Архитектурная эффективность также играет решающую роль.

Например, Mistral 7B использует такие методы, как Grouped Query Attention (GQA) и Sliding Window Attention, чтобы снизить затраты на инференс, сохраняя при этом высокую производительность на более длинных входных данных. Эти оптимизации не являются чисто теоретическими. В производственных системах, где задержка, пропускная способность и стоимость являются первостепенными аспектами, они напрямую влияют на развертываемость.

Вывод заключается не в том, что большие модели не нужны, а в том, что точность не масштабируется линейно с размером, когда мир ограничен. В таких условиях модели, построенные с учетом ограничений, как правило, показывают лучшие результаты именно потому, что у них меньше степеней свободы.

Доказательства из практики: когда меньшее лучше большего

Преимущества SLM становятся наиболее очевидными, когда они внедряются в реальные корпоративные рабочие процессы. В производственной среде эти системы не отвечают на произвольные вопросы. Они принимают одни и те же типы решений снова и снова в рамках жестко ограниченных процессов.

Здравоохранение — хороший пример.

Клинические рабочие процессы перенасыщены специфическим языком, сокращениями и неявным контекстом, которые универсальные модели часто интерпретируют неправильно. Решением, например, может стать внедрение специализированных языковых моделей, обученных на тщательно отобранных клинических данных, а не на открытых веб-ресурсах. Эти системы обеспечивают более высокую точность при выполнении запросов, специфичных для здравоохранения, значительно меньшее количество ошибок и сводки, которые четко интегрируются в последующие системы управления лечением.

В распространенных корпоративных задачах обработки естественного языка (NLP), таких как анализ настроений, распознавание именованных сущностей, классификация и структурированное суммирование, эта закономерность повторяется. Бенчмарки и производственные развертывания постоянно показывают, что как только пространство задач ограничено и критерии оценки ясны, добавление параметров приводит к снижению эффективности.

В финансовой и юридической сферах наблюдается та же динамика. Контракты, отчеты о рисках и нормативные документы написаны на естественном языке, но они функционируют в жестких семантических рамках. Такие термины, как «net asset value», " open-to-buy", или юридические положения, специфичные для конкретной юрисдикции, имеют точные значения, которые универсальные модели часто размывают.

На практике компании развертывают более компактные модели, обученные непосредственно на внутренних документах. Исследование показывает, что такие системы обеспечивают более согласованную классификацию пунктов контракта, меньшее количество ложных срабатываний при проверках нормативного соответствия и достаточно быстрое время отклика, чтобы напрямую интегрироваться в конвейеры обработки транзакций или проверки. В итоге компактная быстрая, предсказуемая модель, которую можно проверить и воспроизвести, часто оказывается более ценной, чем более мощная, но не поддающаяся проверке.

Экономика замкнутых миров для ИИ

В корпоративных условиях экономика ИИ определяется не столько затратами на обучение, сколько масштабируемым инференсом. После того, как модель внедрена в производственный рабочий процесс для классификации тикетов, извлечения полей или суммирования звонков, она может вызываться тысячи или миллионы раз в день. Поэтому стоимость запроса, задержка и изменчивость имеют большее значение, чем пиковая производительность. На инференс приходится основная часть расходов.

Более компактные, специально разработанные модели имеют предсказуемые кривые затрат, поскольку их поведение стабильно, а требования к ресурсам ограничены. Их можно развертывать на фиксированной инфраструктуре, масштабировать горизонтально и позиционировать, как и любой другой производственный сервис.

Анализ затрат на инференс LLM показывает, что при стабильной и высокой нагрузке небольшие модели, размещаемые на собственных серверах, могут достичь паритета затрат с большими моделями на основе API гораздо быстрее, чем ожидают многие команды, поскольку затраты на инфраструктуру амортизируются, а предельные затраты на инференс выравниваются. Большие модели оправдывают свою стоимость только тогда, когда необходимы глубокие, открытые рассуждения. Для рутинной классификации, извлечения и суммирования дополнительные параметры редко приводят к улучшению результатов, но всегда приводят к увеличению затрат.

В результате стоимость становится симптомом архитектурной согласованности. Когда модель соответствует форме задачи, экономические соображения вытекают естественным образом. Когда нет, никакая оптимизация ценообразования не может полностью компенсировать это.

Как SLM и LLM работают вместе в корпоративных системах

Выбор между SLM и LLM не является бинарным. Наиболее эффективные корпоративные системы рассматривают их как взаимодополняющие компоненты, каждый из которых работает там, где он наиболее уместен. На практике это часто принимает форму каскадной или многоуровневой модели.

В каскадной архитектуре большинство запросов сначала обрабатывается небольшой, недорогой моделью, работающей в непосредственной близости от данных. Этот первый этап охватывает бóльшую часть работы: классификацию, извлечение, маршрутизацию, суммирование и проверку в рамках событийно-ориентированных рабочих процессов. Эти задачи имеют большой объем, чувствительны к задержкам и четко определены. Когда входные данные выходят за эти рамки, когда неизбежны более глубокое рассуждение, синтез в разных областях или неоднозначность, запрос передается более крупной и мощной модели.

Мы видим ту же самую закономерность в реальных рабочих процессах ИИ. В операционных условиях компании редко начинают критически важный путь с LLM. Вместо этого они используют недорогие, узкоспециализированные модели, такие как модели обнаружения аномалий или прогнозирования, для непрерывного мониторинга потоков и обнаружения изменений. Только после выявления проблемы они задействуют более мощную и дорогостоящую модель, чтобы лучше объяснить, почему это произошло, сопоставить сигналы или помочь человеку в анализе первопричин. Дорогостоящий интеллект используется только в моменты, когда он действительно необходим.

Такое разделение труда позволяет получить сразу несколько результатов. Затраты контролируются за счет экономного применения ресурсоемкого инференса. Задержка сокращается, поскольку рутинные решения обрабатываются локально и быстро. Конфиденциальность и управление упрощаются, поскольку конфиденциальные данные остаются в системе. Даже воздействие на окружающую среду улучшается, поскольку наиболее распространенные операции основаны на эффективных моделях.

Почему корпоративному ИИ нужен интеллект, соответствующий его миру

Потребительские системы живут в открытом мире. Они должны быть готовы ко всему, поэтому они полагаются на огромные модели, обученные на бесконечных данных и поддерживаемые максимально возможными вычислительными мощностями. Такой компромисс оправдан, когда целью является широта охвата.

Корпоративные системы отличаются. Они работают в рамках заданных границ. Входные данные известны. Выходные данные ограничены. Успех измерим, а неудача имеет свою цену. В этих замкнутых мирах сам по себе масштаб не является преимуществом. Преимуществом является специализация.

Вот почему нужны малые языковые модели. Большие модели по-прежнему играют важную роль, особенно на периферии, где проблемы неоднозначны и требуется синтез. Но они не являются вариантом по умолчанию.

Будущее корпоративного ИИ — это модели, которые понимают границы, в которых они работают. Как только вы перестанете требовать от моделей понимания всего на свете, они станут намного лучше понимать то, что действительно важно.