Новый отчет Datadog «2026 State of AI Engineering» указывает на измеримую проблему сбоев в корпоративных системах искусственного интеллекта. Примерно 1 из 20 запросов уже завершается с ошибкой в ​​производственной среде, однако системы продолжают работать и возвращать результаты, которые кажутся правильными, что затрудняет обнаружение этих сбоев. 5% сбоев в производственной среде ИИ — это, по инженерным стандартам, очень высокий показатель, сообщает портал Bigdatawire.

Наряду с ростом числа сбоев, в отчете также подчеркивается растущая сложность и нестабильность производственных сред. Речь идет не о сбоях систем, а о том, что системы продолжают работать, становясь при этом менее достоверными.

В отчете особенно бросается в глаза столкновение одновременно нескольких тенденций. Использование ИИ быстро переходит в производство, частота сбоев начинает проявляться все более отчетливо, а проектирование систем становится все более сложным, поскольку команды объединяют несколько моделей, источников данных и инструментов в единый конвейер. Datadog отмечает, что около 70% организаций уже используют три или более моделей в производственной среде, что добавляет еще один уровень координации.

В некоторых случаях поверх добавляются рабочие процессы на основе агентов, что вносит еще большую вариативность. Каждый из этих слоев расширяет возможности, но также увеличивает вероятность того, что что-то пойдет не так, не будучи сразу видимым, и именно здесь начинает проявляться проблема «тихих сбоев».

«ИИ начинает очень напоминать ранние дни облачных технологий, — говорит Яньбин Ли, директор Datadog по продуктам. — Облако сделало системы программируемыми, но гораздо более сложными в управлении. Теперь ИИ делает то же самое с уровнем приложений. Компании, которые добьются успеха, будут не просто создавать лучшие модели — они будут строить вокруг них операционный контроль. В эту новую эпоху наблюдаемость ИИ становится такой же важной, как наблюдаемость облачных технологий десять лет назад».

Что делает эти выводы еще более значимыми, так это источник данных. Datadog не проводит опросы разработчиков и не собирает мнения. Компания анализирует телеметрию производственных процессов тысяч компаний, использующих системы ИИ в режиме реального времени. Это включает в себя растущее число сред на основе агентов, где модели не просто генерируют выходные данные, но и управляют многоэтапными рабочими процессами.

В отчете указывается, что основной преградой на пути надежного масштабирования ИИ является операционная сложность, поскольку большинство организаций уже используют несколько моделей в производственной среде. По мере расширения этих систем задача состоит уже не в том, чтобы заставить их работать, а в том, чтобы сделать их понятными и управляемыми после развертывания.

«Следующая волна сбоев агентов будет связана не с тем, что агенты не могут делать, а с тем, что команды не могут наблюдать, — говорит Гильермо Раух, генеральный директор компании Vercel, стоящей за Next.js и ведущей платформой для создания веб-приложений на основе ИИ. — Агентам необходимы те же циклы обратной связи в производственной среде, что и отличному ПО. В отличие от традиционного ПО, управление потоком данных в агентах осуществляется самой большой языковой моделью (LLM), что делает наблюдаемость не просто полезной, но и необходимой».

Еще одна закономерность, обнаруженная исследователями, заключается в том, что многие из этих сбоев вызваны не качеством модели, а ограничениями инфраструктуры. Большая часть ошибок связана с ограничениями скорости запросов, и миллионы таких событий регистрируются в производственных системах. По мере роста использования системы все чаще достигают пределов пропускной способности провайдера, что приводит к всплескам сбоев, которые трудно предсказать. На практике надежность определяется не только тем, насколько хорошо работает модель, но и тем, как команды управляют нагрузкой, повторными попытками и параллельным выполнением задач.

Согласно отчету Datadog, контролировать затраты и задержку становится все сложнее. Использование токенов увеличилось более чем вдвое для типичных рабочих нагрузок и еще больше для сценариев с высокой интенсивностью использования. Причиной этого роста является не только пользовательский ввод, но и расширяющийся слой системных промптов, политик и инструкций инструментов, которые многократно обрабатываются в каждом запросе. Эти фоновые токены теперь составляют значительную долю общего использования, а это значит, что затраты могут расти даже тогда, когда спрос пользователей кажется стабильным.

Несмотря на все эти аспекты, основные преимущества в плане эффективности часто упускаются. В отчете показано, что кэширование промптов по-прежнему используется недостаточно, и большинство систем повторно обрабатывают один и тот же контекст между вызовами. Это указывает на разрыв между тем, как создаются системы ИИ, и тем, как они оптимизируются в производственной среде. По мере расширения контекстных окон и увеличения объема промптов задача смещается от насыщения модели бóльшим количеством данных к определению того, какая информация действительно имеет значение.