Согласно прогнозу аналитической компании Gartner, к 2030 г. получение выводов искусственного интеллекта (инференс) с помощью большой языковой модели (LLM) с одним триллионом параметров будет обходиться поставщикам генеративного ИИ (GenAI) более чем на 90% дешевле, чем в 2025-м.

ИИ-токены — это единицы данных, которые обрабатывают модели GenAI. Для целей данного анализа токен представляет собой 3,5 байта данных, или приблизительно 4 символа.

«Это снижение затрат будет обусловлено сочетанием улучшений в области эффективности полупроводников и инфраструктуры, инноваций в дизайне моделей, более высокой степени использования чипов, растущего применения специализированных кремниевых чипов для инференса и применения периферийных устройств для конкретных сценариев использования», — сказал Уилл Соммер, старший директор-аналитик Gartner.

На основе этих тенденций Gartner прогнозирует, что к 2030 г. LLM будут в 100 раз более экономически эффективными, чем самые ранние модели аналогичного размера, разработанные в 2022 г.

Результаты прогнозного моделирования разделены на два набора сценариев для полупроводниковых технологий:

• «передовые» (frontier) сценарии: работа моделей основана на новейших передовых чипах;

• «комбинированные» (legacy blend) сценарии: работа моделей основана на репрезентативном сочетании доступных полупроводников, сопоставленном с прогнозами Gartner.

Ожидаемые затраты в «комбинированных» сценариях значительно выше, чем в «передовых» сценариях, учитывая их меньшую вычислительную мощность.

Прогнозы Gartner по сценариям GenAI-инференса. Источник: Gartner (март 2026 г.)

Снижение стоимости токенов не демократизирует передовые технологии

Однако снижение стоимости токенов для поставщиков GenAI не будет полностью транслировано на корпоративных клиентов. Более того, для передовых интеллектуальных систем потребуется значительно больше токенов, чем для современных массовых приложений. Например, агентные модели требуют в 5-30 раз больше токенов на задачу, чем стандартный чат-бот GenAI, и могут выполнять гораздо больше задач, чем человек, использующий GenAI.

Хотя снижение стоимости токенов позволит расширить возможности GenAI, эти достижения приведут к непропорционально большему спросу на токены. Поскольку потребление токенов растет быстрее, чем снижается их стоимость, ожидается увеличение общих затрат на инференс.

«Директорам по продуктам (CPO) не следует путать дефляцию товарных токенов с демократизацией передовых методов рассуждения, — сказал Соммер. — Хотя стоимость стандартизированного интеллекта приблизится почти к нулю, вычислительные ресурсы и системы, необходимые для поддержки сложных методов рассуждения, останутся дефицитными. CPO, которые сегодня маскируют архитектурные недостатки дешевыми токенами, завтра столкнутся с трудностями в масштабировании агентных систем».

По мнению Gartner, будет расти ценность платформ, способных координировать рабочие нагрузки в рамках разнообразного портфеля моделей. Рутинные, часто выполняемые задачи должны быть перенаправлены на более эффективные небольшие и предметно-ориентированные языковые модели, которые работают лучше, чем универсальные решения, и при этом обходятся значительно дешевле, поскольку они адаптированы к конкретным рабочим процессам. Дорогостоящий инференс моделей передового уровня должен быть строго ограничен и зарезервирован исключительно для высокорентабельных, сложных задач логического мышления.