Большие модели действий (Large Action Model, LAM) — это глаза и мозг завтрашних агентов искусственного интеллекта, способных действовать, рассказывают опрошенные порталом The New Stack эксперты.

Управление Windows-программой. Автоматизация выверки счетов-фактур. Бронирование авиабилетов и отелей. Это лишь несколько задач, которые могут решать агенты ИИ с помощью нового класса больших языковых моделей (LLM). Исследователи называют следующую фазу LLM «большими моделями действий», или LAM.

До сих пор LLM не имели состояния — они не могли действовать, адаптироваться или взаимодействовать с инструментами самостоятельно. Но теперь LAM позволят агентам выполнять все более сложные действия и даже перемещаться по графическим пользовательским интерфейсам (GUI).

«LAM — это критическая точка перелома в эволюции систем ИИ, которые переходят от пассивного реагирования к автономным операциям», — говорит Преетпал Сингх, управляющий директор группы ИТ-сервисной компаний Xebia. По сути, LAM знаменуют переход от генеративного ИИ к агентному ИИ.

Благодаря LAM, лежащим в их основе, агенты ИИ могут превзойти вчерашний ИИ. «ИИ всегда нуждался в исполнительном механизме, и LAM — это ответ генеративного ИИ на эту потребность», — отмечает Скотт Уиллсон, руководитель отдела маркетинга продуктов компании xtype.

Другие эксперты согласны с тем, что LAM лежат в основе агентов, способных к действиям. «Когда вы говорите о LAM, вы на самом деле говорите об агентах, — поясняет Кит Пиджановски, инженер по ИИ-решениям компании MinIO. — LAM — это мозг агентов».

Что собой представляют LAM?

LAM — это LLM, обученные на конкретных действиях и дополненные реальной связью с внешними данными и системами. Это делает агентов, которыми они управляют, более надежными, чем базовые LLM, которые ограничены рассуждениями, поиском и генерацией текста.

В то время как LLM более универсальны и обучены на большом массиве данных, LAM более ориентированы на конкретные задачи. «LAM настраивают LLM таким образом, чтобы они могли рекомендовать действия для достижения цели», — говорит Джейсон Фурнье, вице-президент по ИИ-инициативам образовательной платформы Imagine Learning.

Примеры LAM на сегодняшний день включают:

  • Исследователи Microsoft разработали LAM, выполняющую задачи в Office.
  • Orby недавно представила LAM для автоматизации корпоративных задач.
  • CogAgent — модель с открытым исходным кодом, предназначенная для выполнения задач в графических интерфейсах.
  • Университет Калифорнии-Беркли поделился Gorilla — доработанной моделью, которая расширяет возможности генерации с расширенным поиском (retrieval augmented generation, RAG) и предоставляет среду для выполнения действий, генерируемых LLM.

Академические исследования LAM продолжаются, и их определение в индустриальном контексте остается сложной задачей. Хотя именование не стандартизировано, многие проекты, описываемые как «LLM с инструментами использования» или «агентные фреймворки», вероятно, попадают под зонтик LAM.

Например, недавно OpenAI добавила в свой набор инструментов Responses API функцию «Computer Use», позволяющую разработчикам направлять ИИ при выполнении действий на экране, таких как клик или прокрутка. Хотя OpenAI не использует термин LAM, это отражает более широкий всплеск развития инструментов, позволяющих создавать более действенные агенты ИИ.

«Растет спрос на системы, которые выходят за рамки языковой помощи и переходят к интеллектуальным агентам, способным выполнять действия в реальном мире», — пишут исследователи Microsoft в аннотации к исследованию LAM, которое они опубликовали в декабре 2024 г. В другом исследовании, обновленном в мае, изображено «новое поколение GUI-агентов с LLM-мозгом».

Как LAM способствуют развитию агентов ИИ?

Традиционно автоматизация бизнеса опиралась на роботизацию процессов (RPA), которая имитировала поведение пользователя, например, клики, прокрутку или копирование текста, чтобы автоматизировать повторяющиеся задачи. LAM идут дальше.

Вместо того чтобы следовать жестко закодированной логике, агенты на базе LAM собирают информацию во время работы — даже те данные, которых не существовало на момент определения рабочего процесса. «Это больше похоже на динамическую бизнес-логику», — говорит Пиджановски.

Уиллсон считает, что LAM «намного лучше», чем RPA: «В отличие от обычной автоматизации, которая следует жестким, заранее запрограммированным правилам, LAM могут адаптироваться к изменениям в пользовательских интерфейсах и рабочих процессах». Вы также можете поговорить с ними на естественном языке и позволить им справиться с деталями реализации.

LAM опираются на RAG, которая позволяет LLM привлекать внешние документы. «Технология RAG заставила индустрию задуматься о возможности дать LLM больше информации во время вывода, — говорит Пиджановски. — RAG была самым первым агентом, но у нее был только один инструмент: обратиться к векторной базе данных и получить небольшие фрагменты документов».

По его словам, LAM идет дальше — она не просто извлекает информацию или имитирует действия, а действительно решает задачи. Это может означать выполнение многоэтапных рабочих процессов, например бронирование отпуска.

Что LAM могут дать предприятиям?

Пиджановски указал на управление заводом как на перспективный сценарий использования в корпоративной среде. LAM может автоматизировать техническое обслуживание путем мониторинга оборудования, анализа изображений на предмет дефектов и синхронизации с другими платформами для создания предупреждений, запуска заказов или отслеживания запасов.

С серверами Model Context Protocol (MCP), которые соединяют агентов ИИ с внешними инструментами, агенты также можно использовать в таких областях, как облачный DevOps. Например, с помощью MCP-сервера LAM может автономно управлять облачными файлами и выполнять административные задачи.

LAM, обученные внутренним действиям, могут также оптимизировать рабочие процессы в конкретной отрасли. Например, Imagine Learning разработала систему ИИ, основанную на учебном плане, для поддержки учителей и учеников при планировании уроков с помощью ИИ. Фурнье видит перспективы в автоматизации административных задач, таких как регистрация студентов, синтез данных для преподавателей и повышение эффективности обучения.

Или, как предлагает Уиллсон, можно рассмотреть маркетинг: «Вы можете сказать агентной ИИ-платформе с технологией LAM: „Запустите кампанию по продаже нового продукта для ПО ACME по всем нашим каналам с помощью стандартной системы обмена сообщениями“». Подобные возможности могут сэкономить время, обеспечить последовательность бренда и освободить команды, чтобы они могли сосредоточиться на стратегии высокого уровня.

Сингх видит потенциал в автоматизации задач в финансовой и юридической сферах, таких как анализ транзакций, сверка счетов, проверка контрактов и обработка запросов в службу поддержки клиентов. «Такой тип автоматизации может снизить операционные расходы, повысив точность и скорость работы», — говорит он.

Одним словом, «LAM обладают преобразующим потенциалом для корпоративных операций, автоматизируя сложные рабочие процессы, которые в настоящее время требуют вмешательства человека», — отмечает Уиллсон.

Внедрение LAM

«LAM — ключевой компонент экосистемы агентного ИИ, — говорит Уиллсон. — Вместо того чтобы просто запускать рабочий процесс, LAM могут определять необходимые шаги для достижения цели».

Если агенты выполняют всю работу, команды могут отказаться от создания специальных API-интеграций. «Сила LAM заключается в их способности взаимодействовать с существующими программными интерфейсами так же, как это делают люди, не требуя специализированных интеграций или API», — добавляет Уиллсон.

Тем не менее, внедрение LAM требует предварительных усилий и связано с уникальными ограничениями при разработке.

Во-первых, разработчики должны обучить LLM всем доступным действиям. Уиллсон рекомендует «обучение на основе наблюдения», когда модель наблюдает за тем, как люди взаимодействуют с ПО, и имитирует эти действия. «Такая способность к обучению позволяет им совершенствоваться со временем без явного перепрограммирования — своего рода подражательный подход, которого не хватает традиционной автоматизации», — поясняет он.

Далее необходимо выбрать фреймворк или инструмент для создания агента, который будет работать поверх него, говорит Пиджановски. «В случае с генеративным ИИ все было просто — достаточно развернуть LLM, — отмечает он. — С агентным ИИ вам нужен фреймворк для соединения всего воедино и правильного развертывания в производстве». В качестве примера он приводит LangChain LangGraph.

По словам Сингха, стандартные практики, такие как непрерывная интеграция, тестирование, мониторинг и контроль версий, по-прежнему применимы. Архитектура тоже имеет значение: «LAM лучше всего работают в средах, которые являются модульными и совместимыми».

Проблемы использования LAM

Безопасность остается насущной проблемой для потенциальных пользователей LAM. «Практика безопасности LLM все еще недостаточно развита, чтобы решить такие проблемы, как модели джейлбрейка, инъекции и утечки подсказок, — говорит Фурнье. — Агентный ИИ расширяет поверхность атаки, поэтому LAM нуждаются в надежных защитных ограждениях — особенно в таких секторах, как образование, где конфиденциальность, точность и снижение предвзятости имеют решающее значение».

По его словам, также следует сосредоточиться на оценках и контрольных показателях, чтобы лучше понимать, что делают эти системы и как их улучшить. Для этого потребуются новые инструменты для мониторинга и непрерывной оценки.

LAM подходят не для всех сценариев использования, отмечает Уиллсон: «Традиционная RPA по-прежнему лучше подходит для больших объемов неизменных процессов, включающих простые, повторяющиеся задачи со стабильными интерфейсами, где эффективность специально разработанных решений перевешивает гибкость LAM».

По его словам, LAM отлично справляются с динамичными, мультисистемными рабочими процессами, в то время как RPA лучше подходит для высокодетерминированных задач, таких как интеграция унаследованных систем или обработка в реальном времени с жесткими требованиями к производительности.

Еще одно препятствие — необходимость подключения. Внутри агента есть плоскость управления (LAM), которая анализирует запросы и выполняет размышления. Под ней, говорит Пиджановски, находится инструментальная плоскость, которая подключается к серверам MCP, базам данных, API и другим агентам на базе LLM.

Для связи этой плоскости управления с внешними инструментами LAM требуется стандартный протокол. И хотя протокол MCP компании Anthropic лидирует, предлагаемые альтернативы, такие как Agent2Agent Protocol (A2A) от Google и Open Agentic Schema Framework (OASF) от Cisco, дышат в спину. Протокол де-факто еще не определен.

Будущее агентного ИИ невозможно без LAM

По прогнозам Gartner, к 2028 г. агентный ИИ будет встроен в более чем 33% корпоративных приложений. Хотя LAM, вероятно, будут выполнять многие из этих задач, некоторые сомневаются в том, что они добавят ценность в детализированные рабочие процессы.

Некоторые эксперты, например Фурнье, по-прежнему с осторожностью относятся к тому, насколько хорошо LAM справится с субъективными или основанными на суждениях задачами. Другие же более уверены.

«LAM не просто улучшают генеративный ИИ, а расширяют его, чтобы обеспечить ценность для бизнеса в сложных реальных средах, — говорит Сингх. — LAM — это явный прогресс в развитии агентного ИИ».

Для Уиллсона LAM — основополагающий фактор: «Это необходимый компонент агентного ИИ. Я не понимаю, как можно создать агентный ИИ без LAM».