Аналитики говорят, что графические процессоры (GPU) продолжат доминировать, но растущий спрос предприятий на инференс искусственного интеллекта создает возможности для внедрения альтернативных решений, сообщает портал Data Center Knowledge.
ИИ-инференс — запуск обученных моделей для получения результатов — стал новым центром прибыли для отрасли. Крупные производители чипов стремятся оптимизировать задержку, энергопотребление и стоимость, что приводит к переходу к сочетанию универсальных GPU со специализированными кремниевыми чипами и привлечению инженерных кадров для их создания.
Лицензионное соглашение Nvidia с Groq на сумму 20 млрд. долл. подчеркивает этот поворот. AMD приобрела инженерную команду Untether AI, а Intel, по сообщениям, рассматривает возможность приобретения SambaNova, оцениваемой примерно в 1,6 млрд. долл. Аналитики говорят, что консолидация не приведет к закрытию рынка; спрос растет настолько сильно, что как крупные игроки, так и стартапы могут конкурировать в дата-центрах и на периферии.
«Крупные компании инвестируют в укрепление своего портфеля решений для инференса, как за счет продуктов, так и за счет привлечения инженерных кадров, — говорит Мэтт Кимбалл, вице-президент и главный аналитик по дата-центрам компании Moor Insights & Strategy. — Появится много занимающихся разработкой чипов стартапов, которые намерены себя показать».
Почему инференс является центром прибыли
По словам Карла Фройнда, основателя и главного аналитика Cambrian AI Research, у инференса принципиально иные экономические и эксплуатационные требования, чем у обучения. Обучение моделей ИИ — это центр затрат, в то время как инференс — это «центр прибыли», который напрямую генерирует доход.
Фройнд и Кимбалл отмечают, что хотя GPU обеспечивают отличную производительность, они часто обладают архитектурными особенностями, оптимизированными для обучения, которые не всегда приводят к снижению задержки или повышению эффективности в задачах чистого инференса. Специализированные чипы для инференса — ASIC и другие ускорители — могут обеспечить более быструю реакцию, улучшенную энергоэффективность и снижение общей стоимости владения.
«С точки зрения центра прибыли хорошая задержка ведет к увеличению доходов, потому что люди хотят получать ответы как можно быстрее, а вы хотите, чтобы это было по минимально возможной цене», — говорит Фройнд.
2026: от пилотных проектов к производству в корпоративной среде
Аналитики отмечают, что GPU — здесь лидирует Nvidia, а AMD набирает обороты — доминируют в крупномасштабном обучении и инференсе и будут продолжать лидировать для самых больших рабочих нагрузок. Однако растущий спрос на инференс открывает возможности за пределами GPU, особенно по мере того, как крупные предприятия в этом году переходят от пилотных проектов к производству.
«Можно видеть, как небольшие компании, численностью не 100 тыс. сотрудников, а, возможно, 10 тыс., начинают внедрять ИИ в свои производственные процессы, бэк-офис, фронт-офис и периферийные устройства», — говорит Кимбалл. Эти организации сталкиваются с ограничениями по мощности, проблемами с охлаждением и постоянными трудностями с поставками GPU, что делает кластеры с большим количеством GPU непрактичными во многих средах.
«Когда вы развертываете GB200 или H100, вы развертываете что-то в киловаттном диапазоне, — отмечает Кимбалл. — В розничной торговле ограниченный бюджет на электроэнергию и нет хорошего охлаждения, поэтому вы не можете использовать стойку с GPU. Вы будете искать что-то другое для развертывания».
Для относительно небольших компаний, таких как банк со 100 филиалами, приоритетными являются общая стоимость владения и бюджеты на электроэнергию, что открывает возможности для стартапов, ориентированных на инференс, для удовлетворения их потребностей. «Именно здесь у стартапов, занимающихся разработкой чипов, появляются значительные возможности, — отмечает Кимбалл. — Это позволит удовлетворить потребности тех клиентов, которые не удовлетворяются существующими игроками рынка либо из-за ограниченной доступности, либо из-за специфических требований к мощности и производительности».
С ростом инференса происходит диверсификация рынка
По словам Фройнда, хотя GPU по-прежнему остаются лучшим универсальным решением для инференса, рынок смещается в сторону ASIC и альтернативных архитектур от таких компаний, как AWS, Google и стартапы.
Опрос Futurum Group, проведенный в ноябре 2025 г., показал, что по итогам года на GPU будет приходиться 58% расходов на вычисления в центрах обработки данных, в то время как в
«Поскольку объемы задач инференса превышают общий объем задач обучения с точки зрения выходных токенов, возникнет большая потребность в диверсификации, поскольку альтернативные архитектуры XPU могут обеспечить лучшую эффективность в некоторых конкретных задачах инференса», — говорит Брендан Берк, директор Futurum Group по исследованиям в области полупроводников, цепочек поставок и новых технологий.
Стратегии крупных облачных провайдеров и поставщиков микросхем
Поведение AWS отражает растущий спрос. Этот гиперскейлер поддерживает чипы Nvidia, AMD и Intel для рабочих нагрузок ИИ, а также предлагает собственные чипы, предоставляя клиентам выбор, говорит Шаоун Нанди, директор AWS по технологиям. Он отмечает, что многие клиенты предпочитают Nvidia для моделей, оптимизированных для CUDA, в то время как другие все чаще используют Trainium от AWS из-за соотношения цены и производительности.
«Оба варианта пользуются большим спросом, — поясняет Нанди. — Почти 50% токенов в Bedrock [сервис инференса AWS] работают на чипах Trainium».
Nvidia осознает необходимость в специализированных процессорах для инференса. В 2024 г., по словам руководителей компании, около 40% ее выручки от дата-центров пришлось на инференс. В сентябре 2025 г. Nvidia анонсировала Rubin CPX, графический процессор, разработанный для масштабного контекстного инференса в гипермасштабных и крупных корпоративных средах, в частности, для этапа предварительного заполнения, который обрабатывает промпт перед декодированием. Сообщается, что лицензионное соглашение Nvidia с Groq направлено на интеграцию быстрого, низколатентного и экономичного инференса в архитектуру фабрики ИИ; объявлено о планах по использованию процессоров Groq с низкой задержкой для поддержки более широкого инференса в реальном времени.
Intel рассматривает несколько вариантов поддержки инференса помимо запланированного приобретения SambaNova. Компания улучшила свои CPU Xeon с помощью ускорителей AMX и предлагает выделенные ускорители Gaudi AI для рабочих нагрузок инференса. «Большая часть инференса сегодня происходит на CPU. Большая часть инференса завтра также будет происходить на CPU», — говорит Кимбалл.
Заполучив команду инженеров Untether AI, AMD дополнительно расширила свою инженерную команду, приобретя в ноябре 2025 г. стартап MK1, специализирующийся на инференсе. MK1 разрабатывает ПО, оптимизирующее графические процессоры AMD для высокоскоростного инференса и рассуждений в крупномасштабных корпоративных развертываниях.
По словам Фройнда, новейший чип TPU от Google станет серьезным конкурентом в области инференса, в то время как готовящиеся к выпуску чипы AI200 и AI250 от Qualcomm, обещающие огромный объем памяти и более низкую стоимость, могут стать привлекательными вариантами для дата-центров.
Стартапы, за которыми стоит следить
Возможности инференса охватывают дата-центры и периферию, а требования сильно различаются в зависимости от рабочей нагрузки и развертывания. «Инференс, который вы выполняете в своем автономном автомобиле, сильно отличается от инференса, который вы выполняете, когда являетесь онлайн-ботом службы поддержки клиентов», — говорит Кимбалл.
Джим Макгрегор, главный аналитик Tirias Research, отмечает, что возможности для инференса существуют везде, где происходят вычисления, включая смартфоны, ПК и автомобили. «Двух одинаковых рабочих нагрузок не бывает, и мы увидим множество различных типов ускорителей ИИ для разных типов рабочих нагрузок, — говорит он. — Этот рынок все еще находится на ранней стадии, и на нем еще много места для множества поставщиков».
Фройнд прогнозирует, что в 2026 г. бóльшая часть вычислений будет по-прежнему выполняться в дата-центрах, а не на периферии.
В числе конкурентов в сфере инференс-решений для дата-центров — Cerebras и Tenstorrent. Компания Cerebras, основанная в 2015 г., начала предлагать возможности инференса на своих чипах около года назад. По словам Энди Хока, старшего вице-президента Cerebras по продуктам и стратегии, ее системы могут переключаться между режимами обучения и инференса с помощью ПО, и около 70% их рабочих нагрузок сейчас сосредоточены на инференсе. Обучение по-прежнему составляет бóльшую часть доходов компании.
Компания Tenstorrent, основанная в 2016 г. и возглавляемая Джимом Келлером, который участвовал в создании архитектуры AMD Zen, разрабатывает процессоры для ИИ-инференса на базе архитектуры RISC-V.
Южнокорейские NPU демонстрируют разнообразное применение от периферии до дата-центров. Компания FuriosaAI известна своей энергоэффективной архитектурой NPU и крупными клиентами, такими как LG, отмечает Кимбалл. Rebellions, еще один южнокорейский стартап, известен своей технологией на базе ARM и значительным финансированием от ARM и Samsung Ventures.
Стартапы также занимаются решением проблем, связанных с узкими местами в памяти и сети, которые имеют решающее значение для производительности инференса. Компания SiFive, разрабатывающая чипы на базе архитектуры RISC-V, стремясь минимизировать задержки памяти в своих ИИ-CPU, в сентябре 2025 г. выпустила второе поколение сопроцессоров семейства Intelligence. Компания NeuReality в сентябре 2025 г. представила свою сетевую карту AI-SuperNIC NR2, поддерживающую спецификации Ultra Ethernet Consortium для масштабируемых вычислений. Компания
Прогноз рынка
Аналитики ожидают, что Nvidia сохранит доминирование как в обучении, так и в инференcе, но разнообразие требований создает пространство для специализированных решений, способных завоевать долю рынка. Макгрегор с осторожностью оценивает перспективы стартапов на фоне быстрых технологических изменений и ожидает дальнейшей консолидации. Хотя Groq добилась успеха, другие стартапы на ранних этапах столкнулись с трудностями. Помимо покупки компанией AMD компании Untether AI и приобретения компанией SoftBank компании Graphcore, ожидаемая продажа SambaNova за 1,6 млрд. долл. представляет собой «распродажу по бросовым ценам», учитывая предыдущее финансирование в размере 1,1 млрд. долл.
GPU остаются доминирующими, потому что они универсальны и подходят для любых задач. «Вот почему GPU по-прежнему король. Он программируемый, — говорит Макгрегор. — Вы можете его изменять, разделять и запускать несколько моделей одновременно».
Кимбалл предлагает другую точку зрения, прогнозируя массовое внедрение инференса в корпоративном секторе в 2026 г., что откроет спрос на стартапы, ориентированные на инференс. «Когда рынок инференса будет реализован, эти стартапы будут чувствовать себя намного лучше», — говорит он. Откроются возможности как для универсальных чипов, так и для специализированных вертикальных решений для инференса.
В целом, преимущества специализированных чипов для инференса — более низкая стоимость, сниженное энергопотребление и высокая производительность — создают для них значительные возможности, считает Кимбалл. Смогут ли нынешние стартапы воспользоваться этим, покажет время. «Это богатая и динамичная стартап-сцена, — говорит он. — Здесь открывается столько возможностей, происходит столько инноваций, а ведь это еще очень ранний этап».






























