Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Панорама

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

UEM: от «инвентаризации телефонов» к интеллектуальному управлению мобильным миром

Ещё 5–7 лет назад UEM/MDM воспринимался в корпоративной ИТ-службе примерно как учёт парты в школьном классе: «есть/нет …

Как консалтинг помогает российскому бизнесу осваивать ИИ

Многие компании, внедряющие искусственный интеллект, не получают от него ожидаемой отдачи. Этот вызов стал стимулом для …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

ИТ-отдел работает как часы: заявки обрабатываются быстро, доступность услуг высокая, пользователи довольны. Но каждый …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

Gartner: к 2030 году стоимость LLM-инференса снизится на 90%

27.03.2026

Согласно прогнозу аналитической компании Gartner, к 2030 г. получение выводов искусственного интеллекта (инференс) с помощью большой языковой модели (LLM) с одним триллионом параметров будет обходиться поставщикам генеративного ИИ (GenAI) более чем на 90% дешевле, чем в 2025-м.

ИИ-токены — это единицы данных, которые обрабатывают модели GenAI. Для целей данного анализа токен представляет собой 3,5 байта данных, или приблизительно 4 символа.

«Это снижение затрат будет обусловлено сочетанием улучшений в области эффективности полупроводников и инфраструктуры, инноваций в дизайне моделей, более высокой степени использования чипов, растущего применения специализированных кремниевых чипов для инференса и применения периферийных устройств для конкретных сценариев использования», — сказал Уилл Соммер, старший директор-аналитик Gartner.

На основе этих тенденций Gartner прогнозирует, что к 2030 г. LLM будут в 100 раз более экономически эффективными, чем самые ранние модели аналогичного размера, разработанные в 2022 г.

Результаты прогнозного моделирования разделены на два набора сценариев для полупроводниковых технологий:

• «передовые» (frontier) сценарии: работа моделей основана на новейших передовых чипах;

• «комбинированные» (legacy blend) сценарии: работа моделей основана на репрезентативном сочетании доступных полупроводников, сопоставленном с прогнозами Gartner.

Ожидаемые затраты в «комбинированных» сценариях значительно выше, чем в «передовых» сценариях, учитывая их меньшую вычислительную мощность.

Прогнозы Gartner по сценариям GenAI-инференса. Источник: Gartner (март 2026 г.)

Снижение стоимости токенов не демократизирует передовые технологии

Однако снижение стоимости токенов для поставщиков GenAI не будет полностью транслировано на корпоративных клиентов. Более того, для передовых интеллектуальных систем потребуется значительно больше токенов, чем для современных массовых приложений. Например, агентные модели требуют в 5-30 раз больше токенов на задачу, чем стандартный чат-бот GenAI, и могут выполнять гораздо больше задач, чем человек, использующий GenAI.

Хотя снижение стоимости токенов позволит расширить возможности GenAI, эти достижения приведут к непропорционально большему спросу на токены. Поскольку потребление токенов растет быстрее, чем снижается их стоимость, ожидается увеличение общих затрат на инференс.

«Директорам по продуктам (CPO) не следует путать дефляцию товарных токенов с демократизацией передовых методов рассуждения, — сказал Соммер. — Хотя стоимость стандартизированного интеллекта приблизится почти к нулю, вычислительные ресурсы и системы, необходимые для поддержки сложных методов рассуждения, останутся дефицитными. CPO, которые сегодня маскируют архитектурные недостатки дешевыми токенами, завтра столкнутся с трудностями в масштабировании агентных систем».

По мнению Gartner, будет расти ценность платформ, способных координировать рабочие нагрузки в рамках разнообразного портфеля моделей. Рутинные, часто выполняемые задачи должны быть перенаправлены на более эффективные небольшие и предметно-ориентированные языковые модели, которые работают лучше, чем универсальные решения, и при этом обходятся значительно дешевле, поскольку они адаптированы к конкретным рабочим процессам. Дорогостоящий инференс моделей передового уровня должен быть строго ограничен и зарезервирован исключительно для высокорентабельных, сложных задач логического мышления.

Печать Печать без изображений

	События
	«PRO Согласование: как мы изменили культуру работы с документами в Юралс Кэпитал» 31 марта 2026 г. (вторник), 11:00 — 12:00, Онлайн-трансляция «Про ИБ без воды 2026: практика от практиков» 22 апреля 2026 г. (среда), 10:00 — 18:00, Москва

Статьи по теме

Gartner: к 2030 году стоимость LLM-инференса снизится на 90%

Согласно прогнозу аналитической компании Gartner, к 2030 г. получение выводов искусственного интеллекта (инференс …

Метрики ценности: что мы на самом деле измеряем в ИИ?

В новой среде, дополненной искусственным интеллектом, организациям необходимо отказаться от традиционных показателей …

Роль искусственного интеллекта как ключевой инфраструктуры медицины

В обсуждениях искусственного интеллекта в здравоохранении долгое время преобладали две крайности. Одни видели в ИИ …

Бум ИИ настиг CPU, которые снова стали “модными”

Видеокарты и микросхемы NAND — не единственные компоненты вычислительной техники, которые сейчас продаются как …

Сократит ли ИИ рабочие места? Скорее, реорганизует

Новое исследование Snowflake «The ROI of Gen AI and Agents 2026» показывает, что спрос на технологические вакансии …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Gartner: к 2030 году стоимость LLM-инференса снизится на 90%

Снижение стоимости токенов не демократизирует передовые технологии

Комментарии