Направление вывода (инференс, генерация ответов на запросы пользователей) на основе больших языковых моделей (LLM) стремительно развивается, что обусловлено потребностью в низкой задержке, высокой пропускной способности и гибком развертывании на разнородном оборудовании. В результате появился разнообразный набор фреймворков, каждый из которых предлагает уникальные оптимизации для масштабирования, производительности и управления операциями, пишет на портале The New Stack Джанакирам МСВ, главный аналитик компании Janakiram & Associates.
От эффективного использования памяти PagedAttention и непрерывной обработки запросов (continuous batching) vLLM до готовой к производству оркестровки Hugging Face TGI и дезагрегированной архитектуры обслуживания NVIDIA Dynamo, экосистема теперь охватывает платформы, ориентированные на исследования, такие как SGLang, собственные стеки Kubernetes, такие как
vLLM: оптимизированный инференс с PagedAttention
vLLM — это высокооптимизированный механизм вывода для LLM, созданный в Калифорнийском университете в Беркли и в настоящее время развиваемый международным сообществом. Фреймворк основан на механизме PagedAttention, который обеспечивает более эффективное и детальное управление кэш-памятью с парами «ключ-значение», необходимой для механизма внимания в архитектуре трансформеров. Это дает vLLM преимущество при обслуживании рабочих нагрузок с длинными контекстными окнами и большими пакетами. Еще одно нововведение, непрерывная обработка запросов, обеспечивает загрузку графического процессора путем динамической вставки и удаления запросов из пакета. Дополнительные функции включают в себя управляемое декодирование с помощью конечных автоматов с ограничениями по грамматике, предварительное заполнение фрагментами для обработки длинных запросов, совместное использование кэша префиксов, спекулятивное декодирование и аппаратную поддержку, охватывающую NVIDIA, AMD, Intel и даже новые платформы ускорителей. Движок предоставляет API, совместимый с OpenAI, легко интегрируется с моделями Hugging Face и поддерживает многопроцессорное и многоузловое развертывание с тензорным, конвейерным и экспертным параллелизмом. vLLM часто выбирают для производственных сред, где критически важны максимальная пропускная способность сервера и минимальная задержка.
Hugging Face TGI: обслуживание инференса корпоративного уровня
Hugging Face Text Generation Inference (TGI) — предпочтительная платформа обслуживания для предприятий, использующих экосистему моделей Hugging Face. TGI разработана для эффективного масштабирования инференса LLM на множестве графических процессоров и узлов. Ключевые функции включают интеллектуальное пакетирование запросов, поддержку квантования (INT4, INT8, FP8), ускорение на GPU и оркестровку для нескольких моделей. TGI может работать как автономный сервис или быть интегрирована с инструментами облачного развертывания для надежного мониторинга и автоматического масштабирования. Ее API совместим как с Hugging Face, так и с конечными точками REST в производстве, и обладает богатым набором инструментов для наблюдаемости и журналирования. В последних выпусках основное внимание уделялось эффективному шардингу между кластерами графических процессоров, авторегрессионному планированию токенов и расширенному квантованию для минимизации задержек и максимизации пропускной способности. TGI особенно популярна среди организаций с разнообразными требованиями к моделям и большими объемами многопользовательских рабочих нагрузок, связанных с чатом или генерацией контента.
SGLang: программируемое управление для сложных рабочих процессов LLM
SGLang сочетает повышенную скорость с программируемым управлением потоками выполнения LLM. Разработанный как для исследователей, так и для производственных групп, SGLang предлагает специализированный скриптовый язык для объединения операций в цепочки и управления логикой модели. RadixAttention — это базовая технология, которая обеспечивает повторное использование кэша для последовательностей с похожими префиксами, что является значительным преимуществом в агентных и мультимодальных приложениях. Среда выполнения бэкэнда может использовать непрерывную пакетную обработку, тензорный и конвейерный параллелизм, спекулятивное декодирование и надежную мультимодельную оркестровку. SGLang отлично справляется с многошаговыми задачами рассуждений и интеграцией LLM с другими инструментами ИИ, включая модели машинного зрения и поиска. Благодаря структурированному интерфейсу сценариев и оптимизации среды выполнения SGLang предоставляет разработчикам точный контроль над динамическими и сложными развертываниями LLM.
NVIDIA Dynamo: дезагрегированное обслуживание для гипермасштабируемой производительности
NVIDIA Dynamo — это современный распределенный фреймворк инференса, использующий опыт NVIDIA в высокопроизводительных вычислениях и генеративном ИИ. Архитектура Dynamo основана на дезагрегированном обслуживании, которое разделяет фазы предварительного заполнения и декодирования
AIBrix: нативно-облачные оркестровка и управление
AIBrix служит инструментом оркестровки и панелью управления для нативно-облачного, удобного для исследований обслуживания LLM. AIBrix, изначально разработанный для Kubernetes, координирует динамическое планирование, применение политик моделей, автоматическое масштабирование, управление LoRA и регистрацию плагинов для Open Source-бэкендов, таких как vLLM. Гибридная
llm-d: нативное распределенное обслуживание в Kubernetes
Эти фреймворки отражают эволюцию обслуживания LLM в сторону более высокой пропускной способности, меньшей задержки, программируемой оркестровки и бесшовного масштабирования. vLLM и Hugging Face TGI широко применяются в производстве благодаря своей скорости и совместимости с экосистемой. SGLang выбирается для сложных агентных приложений и мультимодальных задач. NVIDIA Dynamo выводит производительность на новый уровень благодаря эластичности и гибкости бэкенда уровня дата-центра. AIBrix обеспечивает оркестровку и контроль политик для корпоративных и исследовательских рабочих процессов.
В условиях роста рабочих нагрузок LLM эти решения продолжают устанавливать новые стандарты производительности, гибкости и надежности.