Направление вывода (инференс, генерация ответов на запросы пользователей) на основе больших языковых моделей (LLM) стремительно развивается, что обусловлено потребностью в низкой задержке, высокой пропускной способности и гибком развертывании на разнородном оборудовании. В результате появился разнообразный набор фреймворков, каждый из которых предлагает уникальные оптимизации для масштабирования, производительности и управления операциями, пишет на портале The New Stack Джанакирам МСВ, главный аналитик компании Janakiram & Associates.

От эффективного использования памяти PagedAttention и непрерывной обработки запросов (continuous batching) vLLM до готовой к производству оркестровки Hugging Face TGI и дезагрегированной архитектуры обслуживания NVIDIA Dynamo, экосистема теперь охватывает платформы, ориентированные на исследования, такие как SGLang, собственные стеки Kubernetes, такие как llm-d, и корпоративные плоскости управления, такие как AIBrix. В этой статье подробно рассматриваются эти фреймворки, освещаются их архитектурные решения, технические инновации и пригодность для различных реальных сценариев развертывания.

vLLM: оптимизированный инференс с PagedAttention

vLLM — это высокооптимизированный механизм вывода для LLM, созданный в Калифорнийском университете в Беркли и в настоящее время развиваемый международным сообществом. Фреймворк основан на механизме PagedAttention, который обеспечивает более эффективное и детальное управление кэш-памятью с парами «ключ-значение», необходимой для механизма внимания в архитектуре трансформеров. Это дает vLLM преимущество при обслуживании рабочих нагрузок с длинными контекстными окнами и большими пакетами. Еще одно нововведение, непрерывная обработка запросов, обеспечивает загрузку графического процессора путем динамической вставки и удаления запросов из пакета. Дополнительные функции включают в себя управляемое декодирование с помощью конечных автоматов с ограничениями по грамматике, предварительное заполнение фрагментами для обработки длинных запросов, совместное использование кэша префиксов, спекулятивное декодирование и аппаратную поддержку, охватывающую NVIDIA, AMD, Intel и даже новые платформы ускорителей. Движок предоставляет API, совместимый с OpenAI, легко интегрируется с моделями Hugging Face и поддерживает многопроцессорное и многоузловое развертывание с тензорным, конвейерным и экспертным параллелизмом. vLLM часто выбирают для производственных сред, где критически важны максимальная пропускная способность сервера и минимальная задержка.

Hugging Face TGI: обслуживание инференса корпоративного уровня

Hugging Face Text Generation Inference (TGI) — предпочтительная платформа обслуживания для предприятий, использующих экосистему моделей Hugging Face. TGI разработана для эффективного масштабирования инференса LLM на множестве графических процессоров и узлов. Ключевые функции включают интеллектуальное пакетирование запросов, поддержку квантования (INT4, INT8, FP8), ускорение на GPU и оркестровку для нескольких моделей. TGI может работать как автономный сервис или быть интегрирована с инструментами облачного развертывания для надежного мониторинга и автоматического масштабирования. Ее API совместим как с Hugging Face, так и с конечными точками REST в производстве, и обладает богатым набором инструментов для наблюдаемости и журналирования. В последних выпусках основное внимание уделялось эффективному шардингу между кластерами графических процессоров, авторегрессионному планированию токенов и расширенному квантованию для минимизации задержек и максимизации пропускной способности. TGI особенно популярна среди организаций с разнообразными требованиями к моделям и большими объемами многопользовательских рабочих нагрузок, связанных с чатом или генерацией контента.

SGLang: программируемое управление для сложных рабочих процессов LLM

SGLang сочетает повышенную скорость с программируемым управлением потоками выполнения LLM. Разработанный как для исследователей, так и для производственных групп, SGLang предлагает специализированный скриптовый язык для объединения операций в цепочки и управления логикой модели. RadixAttention — это базовая технология, которая обеспечивает повторное использование кэша для последовательностей с похожими префиксами, что является значительным преимуществом в агентных и мультимодальных приложениях. Среда выполнения бэкэнда может использовать непрерывную пакетную обработку, тензорный и конвейерный параллелизм, спекулятивное декодирование и надежную мультимодельную оркестровку. SGLang отлично справляется с многошаговыми задачами рассуждений и интеграцией LLM с другими инструментами ИИ, включая модели машинного зрения и поиска. Благодаря структурированному интерфейсу сценариев и оптимизации среды выполнения SGLang предоставляет разработчикам точный контроль над динамическими и сложными развертываниями LLM.

NVIDIA Dynamo: дезагрегированное обслуживание для гипермасштабируемой производительности

NVIDIA Dynamo — это современный распределенный фреймворк инференса, использующий опыт NVIDIA в высокопроизводительных вычислениях и генеративном ИИ. Архитектура Dynamo основана на дезагрегированном обслуживании, которое разделяет фазы предварительного заполнения и декодирования LLM-запросов. Такое разделение обеспечивает динамическое назначение GPU и значительно более высокую загрузку при обработке тысяч одновременных клиентов. При написании Dynamo использовано сочетание Rust для оркестровки и Python для расширяемости. Фреймворк может использовать различные бэкенды, включая vLLM, TensorRT-LLM и собственные движки. Ключевыми техническими преимуществами Dynamo являются библиотека NIXL для ускоренных межсоединений, динамическая маршрутизация «GPU-запрос», расширенная выгрузка кэша и поддержка модульных плагинов. Dynamo разработан для сред, где приоритетами являются сверхнизкая задержка, отказоустойчивость и быстрое масштабирование в кластерах дата-центров. Он завоевал популярность среди поставщиков гипермасштабных решений и крупных предприятий, стремящихся к непревзойденной гибкости.

AIBrix: нативно-облачные оркестровка и управление

AIBrix служит инструментом оркестровки и панелью управления для нативно-облачного, удобного для исследований обслуживания LLM. AIBrix, изначально разработанный для Kubernetes, координирует динамическое планирование, применение политик моделей, автоматическое масштабирование, управление LoRA и регистрацию плагинов для Open Source-бэкендов, таких как vLLM. Гибридная (mix-grain) оркестровка позволяет распределять запросы на вывод по многоузловым кластерам с помощью гибридного планирования с использованием Kubernetes и Ray. Распределенный кэш KV обеспечивает эффективное использование памяти и высокую надежность, а расширенная маршрутизация и оптимизация на основе целей уровня обслуживания (SLO) гарантируют быстрое и равномерное обслуживание даже при высокой нагрузке. Фреймворк также поддерживает управление мультимодальными и мультиадаптерными развертываниями, поддерживая тонкую настройку, обновления LoRA и экономичное размещение ресурсов. Предприятия и исследовательские группы выбирают AIBrix за его рабочий процесс на основе политик, корпоративные функции управления и полную поддержку открытых API и адаптеров.

llm-d: нативное распределенное обслуживание в Kubernetes

llm-d ориентирован на Kubernetes-нативное распределенное обслуживание LLM, основанное на глубокой интеграции с vLLM и предоставляющее исследовательским и производственным группам масштабируемые, наблюдаемые стеки инференса. Он предоставляет Inference Gateway, который обеспечивает быструю маршрутизацию запросов, автоматическое масштабирование и гранулярное управление ресурсами. Дезагрегированное обслуживание разделяет предварительное заполнение и декодирование для снижения задержек, а управление кэшем пула KV уменьшает потребление памяти. Архитектура llm-d делает акцент на операционной телеметрии и прозрачном развертывании с поддержкой шаблонов высокой доступности и конечных точек, совместимых с OpenAI. Будучи нативной облачной платформой, llm-d наиболее эффективно работает на многопроцессорных кластерах NVIDIA, управляемых Kubernetes, что упрощает развертывание и мониторинг рабочих нагрузок LLM для текущих исследований, разработки и коммерческих развертываний.

Эти фреймворки отражают эволюцию обслуживания LLM в сторону более высокой пропускной способности, меньшей задержки, программируемой оркестровки и бесшовного масштабирования. vLLM и Hugging Face TGI широко применяются в производстве благодаря своей скорости и совместимости с экосистемой. SGLang выбирается для сложных агентных приложений и мультимодальных задач. NVIDIA Dynamo выводит производительность на новый уровень благодаря эластичности и гибкости бэкенда уровня дата-центра. AIBrix обеспечивает оркестровку и контроль политик для корпоративных и исследовательских рабочих процессов. llm-d сочетает в себе встроенное масштабирование Kubernetes и надежную наблюдаемость для текущих облачных экспериментов и развертывания в производстве.

В условиях роста рабочих нагрузок LLM эти решения продолжают устанавливать новые стандарты производительности, гибкости и надежности.