Чем быстрее растёт внедрение искусственного интеллекта, тем большему числу предприятий необходимо понимать и оптимизировать своё оборудование и инфраструктуру до мельчайших деталей, пишет на портале The New Stack Шон О’Мира, технический директор Mirantis.
В самом ближайшем будущем вся технологическая инфраструктура фактически станет инфраструктурой ИИ. Это не преувеличение. По мере того, как предприятия масштабируют использование моделей генеративного ИИ и автономных агентов, каждый уровень технологического стека — от кремниевых процессоров до оркестровки — будет перестроен для поддержки рабочих нагрузок ИИ.
Этот переход — ещё одно изменение, происходящее после перехода от физических центров обработки данных к облачным вычислениям. В течение нескольких лет значительные сегменты традиционного пространства приложений могут исчезнуть, будучи заменены системами на основе ИИ и рабочими процессами, разрабатываемыми и, возможно, модифицируемыми в режиме реального времени самим ИИ.
Почему инфраструктура ИИ ломает старые правила игры
История облачных вычислений определялась абстракцией. Виртуализация, контейнеры, API и механизмы оркестровки делали нижние уровни — оборудование, операционные системы — все более невидимыми.
Рабочие нагрузки ИИ меняют эту тенденцию. Производительность при масштабировании напрямую зависит от используемых оборудования и структур. Рабочие нагрузки обучения и вывода тесно связаны с CPU, GPU, памятью и сетью. Вместо того, чтобы скрывать сложность, ИИ выносит её на поверхность.
Это создаёт парадокс: чем быстрее растёт внедрение ИИ, тем больше компаний должны понимать и оптимизировать своё оборудование и инфраструктуру до мельчайших деталей. Обещание «бессерверной» простоты сходит на нет, когда платформенным инженерам приходится работать с узлами NUMA (неравномерный доступ к памяти), линиями PCI (взаимодействие периферийных компонентов) или межсоединениями GPU только для достижения приемлемой пропускной способности.
Cложность нового стека
В основе этой трансформации лежит взаимосвязь между CPU и GPU. GPU — это движки ИИ, но они не могут работать изолированно. CPU обеспечивают конвейеры данных, выполняют предварительную обработку и управляют планированием. Во многих случаях задачи лучше выполняются на CPU в составе скоординированного конвейера, чем на одних только GPU. Масштабирование моделей означает управление этими ресурсами как единым целым, а не как независимыми изолированными системами.
Сетевые технологии не менее важны. Инфраструктуру ИИ формируют четыре различных структуры: сети передачи данных для потоков «восток-запад» и «север-юг»; глобальные сети для соединения регионов; PCI-соединения между устройствами; и сети RDMA (удалённый прямой доступ к памяти) для кластеров GPU со сверхнизкой задержкой. При построении инфраструктуры ИИ необходимо учитывать каждую структуру, вплоть до уровня хранения данных.
Дефицит усугубляет проблему. GPU в дефиците, но реальными узкими местами являются электроснабжение и физическое пространство в дата-центре. Например, одна компания потребляет 100% своего доступного бюджета мощности, занимая при этом всего 20% площади своего объекта. Правила проектирования дата-центров переписываются под требования ИИ — больше мощности на стойку, более высокие требования к охлаждению и более длительные сроки поставки оборудования.
Управление и суверенитет
Рабочие нагрузки ИИ создают проблемы суверенитета, с которыми традиционные приложения сталкиваются редко. Требования к локальности данных, правовые и нормативные требования, а также трансграничные механизмы соответствия, такие как GDPR или Закон о цифровой операционной устойчивости (DORA), накладывают новые ограничения на то, где и как работают модели.
Предприятиям необходимо обеспечить не только доступность и производительность, но и доказуемое управление каждым агентом, моделью и инструментом, которые они используют. Суверенитет — одновременно географический, юридический и операционный. Мультиарендность добавляет ещё одно измерение, требуя строгой изоляции рабочих нагрузок, которые могут охватывать команды, подразделения или даже организации-партнёры.
Разработчики и разрыв абстракции
Разработчики, создающие приложения ИИ, не хотят управлять деталями межсоединений, структур и аппаратных конвейеров.
Решение заключается не в том, чтобы перекладывать сложность на разработчиков, а в разработке платформ, которые скрывают детали инфраструктуры, обеспечивая при этом контроль, безопасность и производительность в масштабе.
Строительные блоки инфраструктуры ИИ
Инфраструктуру ИИ можно представить в виде четырёх взаимозависимых уровней.
- Рабочие нагрузки. Верхний уровень — это сама рабочая нагрузка — обучение, тонкая настройка, вывод или оркестровка агентов. Если крупномасштабное обучение требует использования тысяч связанных вместе GPU, то тонкая настройка или вывод небольших моделей могут потребовать всего нескольких. Гибкость для работы с обеими крайностями крайне важна.
- Опыт разработчиков. Следующий уровень — юзабилити. Разработчикам требуется согласованность: модели должны работать с предсказуемой производительностью без чрезмерной ручной настройки. Им необходим доступ к учебным ресурсам, средам вывода и возможностям совместного использования GPU по мере окончания срока службы старых устройств. На этом уровне порталы самообслуживания, API и каталоги делают ИИ доступным для всей организации.
- Инфраструктура как сервис. Под рабочими нагрузками и опытом находится статическая инфраструктура, будь то локальная, облачная или периферийная.
- Управление и наблюдаемость. Основой является плоскость управления — уровень, который обеспечивает, контролирует и оптимизирует всё, что находится выше. Она должна отделять управление от данных, чтобы сбои в управлении не нарушали рабочие нагрузки. Она должна обеспечивать повторяемость благодаря шаблонам, наблюдаемость на каждом уровне и гибкость для смены поставщиков, фреймворков или структур по мере необходимости. Именно здесь предприятия приобретают или теряют суверенитет.
Стратегические императивы для платформ
Какими принципами должно руководствоваться следующее поколение платформ инфраструктуры ИИ? Можно выделить несколько императивов.
- Управляемость. Платформы не могут быть созданы вручную и быть хрупкими. Они должны поддерживать обновление на протяжении всего жизненного цикла и постоянное совершенствование с течением времени.
- Наблюдаемость. Каждый уровень — от использования GPU до отклика приложений — должен быть инструментирован. Производительность — это не опциональное, а обязательное требование.
- Гибкость. Предприятия должны сохранять возможность менять уровни стека по мере развития поставщиков, избегая привязки к одному. Инфраструктура должна адаптироваться без масштабного переписывания.
- Повторяемость. Шаблоны и декларативные паттерны отражают заведомо успешные архитектуры, снижая сложность и исключая ненужные повторные изобретения.
- Вычисления без границ. Ресурсы должны быть локализованы и использоваться в дата-центрах, облаке и периферии, защищены и доступны для наблюдаемости, где бы они ни использовались.
- Контракты на ресурсы. Вместо абстрагирования оборудования рабочие нагрузки должны заявлять требования к производительности и получать гарантированные контракты. Это превращает абстракцию в гарантии: приложения запрашивают то, что им нужно, а инфраструктура реагирует предсказуемо.
Эти императивы в совокупности определяют, какой должна быть стратегическая открытая инфраструктура: компонуемой, наблюдаемой и отвечающей реалиям рабочих нагрузок ИИ.
Open Source как путь вперед
Быстрая окупаемость — важнейшее бизнес-требование. Предприятия, инвестирующие в инфраструктуру ИИ, не могут позволить себе ждать окупаемости месяцами. Поставщики обещают выгоду, объединяя все в закрытую экосистему. Но эта выгода имеет свою цену: инновации ограничены планами поставщика, а гибкость приносится в жертву. Подход Open Source предлагает альтернативу. Компонуемая инфраструктура, построенная на декларативных паттернах, гарантирует, что платформы будут развиваться вместе с экосистемой. Шаблоны обеспечивают повторяемость. Контракты предоставляют гарантии. Безграничные вычисления позволяют находить и обеспечивать ресурсы везде, где они существуют. Предприятия сами контролируют свою судьбу, а не ждут адаптации монолитных платформ.
Заключение
Вся инфраструктура становится инфраструктурой ИИ. Этот сдвиг будет таким же радикальным, как и переход на облачные технологии, но более сложным, более ограниченным в ресурсах и более чувствительным к суверенитету. Успешные предприятия будут ориентироваться на управляемость, наблюдаемость, гибкость и открытость. Они будут проектировать с учётом дефицита и суверенитета. И они будут использовать платформы, которые предоставляют контракты на производительность, а не иллюзии абстракции.
ИИ не будет ждать стабилизации отрасли. Организации должны решить сейчас, замыкаться ли в закрытых экосистемах или использовать стратегическую открытую инфраструктуру. Мы считаем, что выбор очевиден: будущее за теми, кто сможет безопасно использовать ИИ в масштабе, на инфраструктуре, которую они контролируют.