Развертывание в центрах обработки данных рабочих нагрузок искусственного интеллекта, использующих графические процессоры (GPU), требует специального сетевого оборудования и оптимизации, пишет на портале ComputerWeekly Эндрю Лернер, заслуженный вице-президент-аналитик компании Gartner.
CIO ожидают от своих инвестиций в ИИ значительных результатов, включая улучшение производительности, клиентского опыта (CX) и цифровой трансформации. В результате интерес предприятий к развертыванию инфраструктуры ИИ, включая GPU и ИИ-серверы, значительно растет.
В частности, с октября 2022 г. по октябрь
Важно понимать, что требования рабочих нагрузок ИИ отличаются от требований большинства существующих рабочих нагрузок в дата-центрах.
Для поддержки подключения GPU существует множество технологий межсоединений. Часто клиенты Gartner спрашивают: «Что лучше использовать для подключения к кластерам GPU: Ethernet, InfiniBand или NVLink?». В зависимости от сценария могут быть использованы все три подхода.
Эти технологии не являются взаимоисключающими. Предприятия могут использовать их в сочетании друг с другом (например, InfiniBand или Ethernet) для масштабирования за пределы стойки. Распространенным заблуждением является то, что только InfiniBand или технология межсоединений, разработанная поставщиком (например, NVLink), может обеспечить надлежащую производительность и надежность.
Однако для кластеров GPU количеством до нескольких тысяч Gartner рекомендует предприятиям развертывать Ethernet вместо альтернативных технологий, таких как InfiniBand. Инфраструктура на базе Ethernet может обеспечить необходимую надежность и производительность, а опыт использования этой технологии широко распространен среди предприятий. Кроме того, с технологией Ethernet связана широкая экосистема поставщиков.
Оптимизация развертывания сети для трафика GPU
В настоящее время для вычислительных нагрузок общего назначения, основанных на центральных процессорах (CPU), используется топология сети «leaf/spine».
Однако эта топология не всегда оптимальна для рабочих нагрузок ИИ. Кроме того, выполнение рабочих нагрузок ИИ в существующих сетях ЦОДов может вызвать эффект «шумных соседей», который снижает производительность как для ИИ, так и для других рабочих нагрузок. Это может привести к увеличению времени обработки и завершения заданий для рабочих нагрузок ИИ, что крайне неэффективно.
При создании инфраструктуры ИИ сетевые коммутаторы обычно составляют 15% или менее от стоимости. В результате экономия средств за счет использования существующих коммутаторов часто приводит к неоптимальному общему соотношению цены и производительности для инвестиций в рабочие нагрузки ИИ. В связи с этим Gartner дает несколько следующих рекомендаций.
Из-за уникальных требований к трафику и высокой стоимости GPU Gartner предлагает устанавливать специальные физические коммутаторы для подключения GPU. Кроме того, вместо топологии «leaf/spine» по умолчанию предлагается использовать минимальное количество физических коммутаторов, чтобы сократить количество физических «хопов». В конечном итоге это может привести к топологии «leaf/spine», а также к другим топологиям, включая однокоммутаторную, двухкоммутаторную, полносвязную, кубическую и dragonfly.
Не используйте одни и те же коммутаторы для GPU и других общих вычислений в ЦОДе. Для кластеров GPU с числом графических процессоров менее 500 идеально подходят один или два физических коммутатора. Организациям с числом GPU более 500 Gartner советует создать специальную структуру Ethernet для ИИ. Это, скорее всего, потребует отхода от стандартных, применяемых на практике топологий размещения сетевого оборудования в верхней части стойки (ToR) в пользу коммутаторов в середине ряда (MoR) и/или модульных коммутаторов.
Улучшенные возможности Ethernet
Gartner рекомендует для подключения GPU использовать выделенные коммутаторы. При развертывании Ethernet (по сравнению с InfiniBand или оптимизированными для полок/стоек/рядов межсоединениями) следует использовать коммутаторы с особыми требованиями. Они должны поддерживать:
- Высокоскоростной интерфейс для GPU, включая порты доступа 400 Гбит/с и выше.
- Ethernet без потерь, включая усовершенствованные механизмы обработки перегрузок — например, уведомление о перегрузках в дата-центрах (DCQCN).
- Расширенные возможности балансировки трафика, включая балансировку нагрузки с учетом перегрузок.
- Балансировку нагрузки с учетом удаленного прямого доступа к памяти (RDMA) и распыление пакетов.
Управление сетевыми структурами
Кроме того, необходимо усовершенствовать ПО для управления сетевыми структурами для ИИ. Для этого требуется функциональность на уровне управления, позволяющая быстро предупреждать, диагностировать и устранять проблемы. В частности, ПО для управления, обеспечивающее расширенную гранулярную телеметрию (включая субсекундные и суб-100 миллисекундные интервалы), идеально подходит для поиска и устранения неисправностей. Кроме того, необходима возможность мониторинга и оповещения (в реальном времени), а также предоставления исторических отчетов по использованию полосы пропускания, потере пакетов, джиттеру, задержке и доступности на субсекундном уровне.
Поддержка Ultra Ethernet (и ускорителей)
При построении сетей Gartner советует ИТ-руководителям обратить внимание на поставщиков оборудования, которые обязуются поддерживать спецификации Ultra Ethernet Consortium (UEC) и Ultra Accelerator Link (UAL).
UEC разрабатывает отраслевой стандарт для поддержки в Ethernet высокопроизводительных рабочих нагрузок. Gartner ожидает его появления до конца 2025 г. Необходимость в стандарте обусловлена тем, что поставщики в настоящее время используют собственные механизмы для обеспечения высокопроизводительного Ethernet, необходимого для подключения ИИ.
В долгосрочной перспективе это снижает проблему функциональной совместимости для заказчиков, поскольку не привязывает их к реализации одного поставщика. Преимущество поставщиков, подтверждающих согласованный стандарт UEC, заключается в интероперабельности их оборудования.
Существует также отдельная, но связанная со стандартизацией технология соединения ускорителей, оптимизированная для полок/стоек/рядов, под названием UAL. Цель UAL — стандартизировать высокоскоростную технологию межсоединений ускорителей, направленную на удовлетворение потребностей в пропускной способности масштабируемых сетей, которые выходят за рамки возможностей Ethernet и InfiniBand.
Снижение рисков с помощью совместно сертифицированных реализаций
Наконец, из-за жестких требований к производительности рабочих нагрузок ИИ соединение между GPU и сетевыми коммутаторами должно быть оптимизировано и не иметь ошибок с точки зрения аппаратного и программного обеспечения. Это может стать еще более сложной задачей, учитывая быстрые темпы изменений, связанных с сетевыми и GPU-технологиями.
Чтобы снизить вероятность возникновения проблем при внедрении, Gartner рекомендует следовать проверенным руководствам по внедрению, которые совместно сертифицированы поставщиками сетей и GPU.
Преимущества совместной сертификации сетей и GPU
Gartner отмечает, что ко-сертификация включает в себя ключевое руководство по проектированию и внедрению, которое охватывает конкретные рекомендации:
- Физическая топология, включая схему прокладки кабелей и спецификации кабелей.
- Технические характеристики оборудования, включая комплектующие (SKU) для коммутаторов, сетевых интерфейсных плат (NIC) и GPU.
- Конкретные версии микропрограммного обеспечения для коммутаторов, GPU и NIC.
- Конкретные версии ПО для коммутаторов, серверов и NIC.
Недостатки совместной сертификации двояки:
- Может ограничить выбор поставщиков.
- Первоначальное развертывание часто бывает утомительным и занимает много времени.
Однако, по мнению Gartner, преимущества в плане доступности оправдывают вложения.
Ценность совместной сертификации заключается в том, что оба поставщика должны поддерживать развертывания, выполненные в соответствии с этой спецификацией, что в конечном итоге снижает вероятность возникновения проблем и уменьшает среднее время ремонта (MTTR) в случае возникновения проблем.