Рабочие нагрузки искусственного интеллекта меняют подход к проектированию центров обработки данных, определяя переход от жесткого резервирования к гибкости, адаптированной под конкретные потребности, пишет на портале Data Center Knowledge Харкс Сингх, технический директор и соучредитель InfraPartners.

На протяжении десятилетий дата-центры проектировались как коммерческие авиалайнеры. Они строились с многоуровневым резервированием, потому что отказ просто не был допустим и было неясно, какие приложения будут использовать инфраструктуру объекта. Большинству дата-центров приходилось учитывать различные типы приложений, с обеспечением резервных копий на случай, если что-то пойдет не так.

Однако развитие ИИ принесло другую реальность — реальность, которая не требует исключительной отказоустойчивости и почти идеального времени безотказной работы, но при этом ограничена тем, что цепочка поставок не масштабируется достаточно быстро. Этот сдвиг сделал индустрию дата-центров гораздо менее похожей на авиацию и гораздо сильнее похожей на более широкую транспортную сеть, с множеством эталонных архитектур для ИИ-обучения или инференса. Потому что не для каждой перевозки нужен именно самолет. Некоторые могут быть лучше организованы поездами или грузовыми судами.

Фактически, в ответ на диверсификацию моделей ИИ операторы отказываются от строительства каждого объекта с максимальным резервированием и вместо этого отдают приоритет прибыльности и энергоэффективности, используя каждый ватт с максимальной эффективностью и инвестируя капитал таким образом, чтобы обеспечить долгосрочную окупаемость. Понимание потребностей в производительности различных моделей и рабочих нагрузок ИИ помогает согласовывать дата-центры с требованиями приложений.

Почему ИИ меняет историю дата-центров

На протяжении большей части истории отрасли 99,999% времени безотказной работы было незыблемым требованием. Дата-центры обеспечивали работу систем, где даже секунды простоя имели немедленные последствия для фондовых бирж, платежных сетей и телекоммуникационной инфраструктуры. В этих средах сбои могли иметь чрезвычайно серьезные последствия для бизнеса. Представьте себе миллионы, потерянные за минуты, или сбои в работе критически важных служб для целых регионов. Поскольку операторы не всегда могли предсказать, какие приложения действительно будут критически важными, многие объекты по умолчанию строились в соответствии с высочайшими стандартами отказоустойчивости.

Сегодня ИИ меняет эту необходимость. Хотя многие могут предположить, что новая технологическая эра обуславливает постоянно растущие требования к отказоустойчивости, в действительности различные модели, процессы обучения и инференса требуют совершенно разных уровней обслуживания. В некоторых случаях инфраструктуре не требуются резервные генераторы, сложные системы резервирования или высокоуровневая архитектура. Для рабочих нагрузок обучения ИИ не требуется тот уровень бесперебойной работы, к которому большинство из нас привыкло.

Почему это важно? Очевидно, что отрасль находится под сильным давлением и пристальным вниманием. Спрос превышает предложение, нехватка рабочей силы задерживает проекты, а перерасход средств остается постоянной проблемой. В то же время спрос и требования ИИ значительно растут. Использование по умолчанию сверхнадежных высокоуровневых решений для каждого развертывания ИИ усугубляет это давление. Многоуровневые системы резервирования электропитания, обширная резервная инфраструктура и полностью дублированные среды увеличивают капитальные затраты и могут значительно замедлить ввод мощностей в эксплуатацию. Они также вводят операционную сложность, которая просто не требуется для этих рабочих нагрузок.

Почему рабочие нагрузки ИИ отличаются

Многие корпоративные дата-центры были спроектированы для традиционных ИТ-нагрузок, но для ИИ нужен более широкий спектр объектов, удовлетворяющих различные потребности в производительности и времени безотказной работы. Например, крупные центры обучения ИИ работают иначе, чем традиционные площадки, вокруг которых строилась отрасль. Эти среды, использующие графические процессоры, работают в огромных масштабах, при этом основными ограничениями являются доступность электроэнергии и охлаждение. Поскольку эти рабочие нагрузки распределены и основаны на контрольных точках, они функционируют скорее как пакетная обработка, и можно предусмотреть бóльшую гибкость для более быстрого запуска и использования мощностей.

Напротив, развертывания инференса обычно производятся ближе к населенным пунктам и службам поддержки, с которыми пользователи регулярно взаимодействуют. Поскольку они связаны с клиентским опытом, ожидания в отношении времени безотказной работы и отказоустойчивости остаются высокими, и инфраструктура должна быть спроектирована таким образом, чтобы обеспечить непрерывную доступность либо на уровне площадки, либо в распределенной модели отказоустойчивости.

Это разнообразие требований приводит нас к портфелю различных типов объектов без универсального подхода или высоких ожиданий в отношении создания резервных копий и избыточности. В эпоху ИИ речь идет скорее о «точной отказоустойчивости», то есть об избыточности, отражающей фактическое поведение рабочих нагрузок, а не об опоре на устаревшие проектные предположения.

Цена избыточного проектирования

Ошибка, заключающаяся в проектировании чрезмерной отказоустойчивости по всем направлениям, приводит к замораживанию капитала, который мог бы быть направлен на увеличение вычислительных мощностей, и замедляет развертывание новых площадок.

Операторам следует стремиться к балансу. Модернизируемые дата-центры, использующие стандартные эталонные дизайны и блоки,поступающие на строительные площадки, позволяют развертывать инфраструктуру гораздо быстрее. Стандартизация компонентов и их разработка в заводских условиях позволяют операторам снизить сложность на месте и получить гораздо больший контроль над затратами и сроками. Этот вариант упрощает принятие обоснованных решений об отказоустойчивости, производительности и скорости выхода на рынок.

Эта стандартизация идет рука об руку с созданием стандартных эталонных дизайнов, которые нам начинают требоваться и которые мы уже видим в контексте ИИ. Когда базовые компоненты стандартизированы, операторы могут гораздо эффективнее собирать объекты различных типов. Стандартизация предоставляет строительные блоки, а эталонные дизайны определяют, как они собираются.

Гибкость имеет фундаментальное значение

Инфраструктура ИИ развивается слишком быстро для жестких проектных предположений, поэтому дизайны должны быть гибкими, чтобы удовлетворить потребности завтрашнего дня. В ближайшие годы ландшафт ИИ, вероятно, будет включать в себя несколько типов объектов. Это будут как энергоэффективные центры обучения, построенные вблизи источников энергии, так и распределенные площадки для инференса, где время безотказной работы и задержка напрямую влияют на пользовательский опыт, а также гибридные среды, поддерживающие как задачи ИИ, так и традиционные рабочие нагрузки.

Подобно разнообразной транспортной сети самолетов, поездов и судов, каждый из них служит разным целям и имеет свои компромиссы. Но отказоустойчивость всегда должна быть осознанным проектным решением, определяемым рабочей нагрузкой, бизнес-моделью и получаемым доходом.