Развертывание в центрах обработки данных рабочих нагрузок искусственного интеллекта, использующих графические процессоры (GPU), требует специального сетевого оборудования и оптимизации, пишет на портале ComputerWeekly Эндрю Лернер, заслуженный вице-президент-аналитик компании Gartner.

CIO ожидают от своих инвестиций в ИИ значительных результатов, включая улучшение производительности, клиентского опыта (CX) и цифровой трансформации. В результате интерес предприятий к развертыванию инфраструктуры ИИ, включая GPU и ИИ-серверы, значительно растет.

В частности, с октября 2022 г. по октябрь 2024-го число запросов клиентов Gartner, касающихся GPU и инфраструктуры ИИ, ежегодно увеличивалось почти в четыре раза. Организации изучают возможность использования хостинговых, облачных и локальных вариантов развертывания GPU. В некоторых случаях они выбирают предложение «полного стека» ИИ, содержащее GPU, вычислительные системы, системы хранения и сети в одном пакете. В других случаях предприятия выбирают и развертывают отдельные компоненты, подобранные и интегрированные по отдельности.

Важно понимать, что требования рабочих нагрузок ИИ отличаются от требований большинства существующих рабочих нагрузок в дата-центрах.

Для поддержки подключения GPU существует множество технологий межсоединений. Часто клиенты Gartner спрашивают: «Что лучше использовать для подключения к кластерам GPU: Ethernet, InfiniBand или NVLink?». В зависимости от сценария могут быть использованы все три подхода.

Эти технологии не являются взаимоисключающими. Предприятия могут использовать их в сочетании друг с другом (например, InfiniBand или Ethernet) для масштабирования за пределы стойки. Распространенным заблуждением является то, что только InfiniBand или технология межсоединений, разработанная поставщиком (например, NVLink), может обеспечить надлежащую производительность и надежность.

Однако для кластеров GPU количеством до нескольких тысяч Gartner рекомендует предприятиям развертывать Ethernet вместо альтернативных технологий, таких как InfiniBand. Инфраструктура на базе Ethernet может обеспечить необходимую надежность и производительность, а опыт использования этой технологии широко распространен среди предприятий. Кроме того, с технологией Ethernet связана широкая экосистема поставщиков.

Оптимизация развертывания сети для трафика GPU

В настоящее время для вычислительных нагрузок общего назначения, основанных на центральных процессорах (CPU), используется топология сети «leaf/spine».

Однако эта топология не всегда оптимальна для рабочих нагрузок ИИ. Кроме того, выполнение рабочих нагрузок ИИ в существующих сетях ЦОДов может вызвать эффект «шумных соседей», который снижает производительность как для ИИ, так и для других рабочих нагрузок. Это может привести к увеличению времени обработки и завершения заданий для рабочих нагрузок ИИ, что крайне неэффективно.

При создании инфраструктуры ИИ сетевые коммутаторы обычно составляют 15% или менее от стоимости. В результате экономия средств за счет использования существующих коммутаторов часто приводит к неоптимальному общему соотношению цены и производительности для инвестиций в рабочие нагрузки ИИ. В связи с этим Gartner дает несколько следующих рекомендаций.

Из-за уникальных требований к трафику и высокой стоимости GPU Gartner предлагает устанавливать специальные физические коммутаторы для подключения GPU. Кроме того, вместо топологии «leaf/spine» по умолчанию предлагается использовать минимальное количество физических коммутаторов, чтобы сократить количество физических «хопов». В конечном итоге это может привести к топологии «leaf/spine», а также к другим топологиям, включая однокоммутаторную, двухкоммутаторную, полносвязную, кубическую и dragonfly.

Не используйте одни и те же коммутаторы для GPU и других общих вычислений в ЦОДе. Для кластеров GPU с числом графических процессоров менее 500 идеально подходят один или два физических коммутатора. Организациям с числом GPU более 500 Gartner советует создать специальную структуру Ethernet для ИИ. Это, скорее всего, потребует отхода от стандартных, применяемых на практике топологий размещения сетевого оборудования в верхней части стойки (ToR) в пользу коммутаторов в середине ряда (MoR) и/или модульных коммутаторов.

Улучшенные возможности Ethernet

Gartner рекомендует для подключения GPU использовать выделенные коммутаторы. При развертывании Ethernet (по сравнению с InfiniBand или оптимизированными для полок/стоек/рядов межсоединениями) следует использовать коммутаторы с особыми требованиями. Они должны поддерживать:

  • Высокоскоростной интерфейс для GPU, включая порты доступа 400 Гбит/с и выше.
  • Ethernet без потерь, включая усовершенствованные механизмы обработки перегрузок — например, уведомление о перегрузках в дата-центрах (DCQCN).
  • Расширенные возможности балансировки трафика, включая балансировку нагрузки с учетом перегрузок.
  • Балансировку нагрузки с учетом удаленного прямого доступа к памяти (RDMA) и распыление пакетов.

Управление сетевыми структурами

Кроме того, необходимо усовершенствовать ПО для управления сетевыми структурами для ИИ. Для этого требуется функциональность на уровне управления, позволяющая быстро предупреждать, диагностировать и устранять проблемы. В частности, ПО для управления, обеспечивающее расширенную гранулярную телеметрию (включая субсекундные и суб-100 миллисекундные интервалы), идеально подходит для поиска и устранения неисправностей. Кроме того, необходима возможность мониторинга и оповещения (в реальном времени), а также предоставления исторических отчетов по использованию полосы пропускания, потере пакетов, джиттеру, задержке и доступности на субсекундном уровне.

Поддержка Ultra Ethernet (и ускорителей)

При построении сетей Gartner советует ИТ-руководителям обратить внимание на поставщиков оборудования, которые обязуются поддерживать спецификации Ultra Ethernet Consortium (UEC) и Ultra Accelerator Link (UAL).

UEC разрабатывает отраслевой стандарт для поддержки в Ethernet высокопроизводительных рабочих нагрузок. Gartner ожидает его появления до конца 2025 г. Необходимость в стандарте обусловлена тем, что поставщики в настоящее время используют собственные механизмы для обеспечения высокопроизводительного Ethernet, необходимого для подключения ИИ.

В долгосрочной перспективе это снижает проблему функциональной совместимости для заказчиков, поскольку не привязывает их к реализации одного поставщика. Преимущество поставщиков, подтверждающих согласованный стандарт UEC, заключается в интероперабельности их оборудования.

Существует также отдельная, но связанная со стандартизацией технология соединения ускорителей, оптимизированная для полок/стоек/рядов, под названием UAL. Цель UAL — стандартизировать высокоскоростную технологию межсоединений ускорителей, направленную на удовлетворение потребностей в пропускной способности масштабируемых сетей, которые выходят за рамки возможностей Ethernet и InfiniBand.

Снижение рисков с помощью совместно сертифицированных реализаций

Наконец, из-за жестких требований к производительности рабочих нагрузок ИИ соединение между GPU и сетевыми коммутаторами должно быть оптимизировано и не иметь ошибок с точки зрения аппаратного и программного обеспечения. Это может стать еще более сложной задачей, учитывая быстрые темпы изменений, связанных с сетевыми и GPU-технологиями.

Чтобы снизить вероятность возникновения проблем при внедрении, Gartner рекомендует следовать проверенным руководствам по внедрению, которые совместно сертифицированы поставщиками сетей и GPU.

Преимущества совместной сертификации сетей и GPU

Gartner отмечает, что ко-сертификация включает в себя ключевое руководство по проектированию и внедрению, которое охватывает конкретные рекомендации:

  • Физическая топология, включая схему прокладки кабелей и спецификации кабелей.
  • Технические характеристики оборудования, включая комплектующие (SKU) для коммутаторов, сетевых интерфейсных плат (NIC) и GPU.
  • Конкретные версии микропрограммного обеспечения для коммутаторов, GPU и NIC.
  • Конкретные версии ПО для коммутаторов, серверов и NIC.

Недостатки совместной сертификации двояки:

  • Может ограничить выбор поставщиков.
  • Первоначальное развертывание часто бывает утомительным и занимает много времени.

Однако, по мнению Gartner, преимущества в плане доступности оправдывают вложения.

Ценность совместной сертификации заключается в том, что оба поставщика должны поддерживать развертывания, выполненные в соответствии с этой спецификацией, что в конечном итоге снижает вероятность возникновения проблем и уменьшает среднее время ремонта (MTTR) в случае возникновения проблем.