Доступность энергии стала одним из самых мощных факторов, определяющих стратегию развития центров обработки данных, но это только половина истории; вторая половина — охлаждение, пишет на портале HPCwire Роб Хейс, вице-президент компании Cornelis.
Энергетический вопрос обогнала вопросы землеотведения, оптоволоконной связи и налоговых льгот как наиболее важный фактор при выборе места для строительства новых ЦОДов и скорости их масштабирования. Эта тенденция теперь очевидна: согласно отчету Министерства энергетики США за 2024 г. об использовании энергии в американских дата-центрах национальный спрос на электроэнергию для ЦОДов утроился с 2014 г. и, по прогнозам, удвоится или даже утроится к 2028 г. Этот всплеск, характерный не только для США и в значительной степени обусловленный искусственным интеллектом и ускоренными вычислениями, создает нагрузку на региональные сети и превращает доступность мегаваттов в определяющий фактор как при выборе площадки, так и при планировании эксплуатации.
Но энергия — это только половина истории. Каждый ватт, подаваемый на серверы, ускорители и сетевое оборудование, в конечном итоге превращается в ватт тепла, которое необходимо отводить. По мере того, как системы для ИИ увеличивают плотность размещения оборудования, энергопотребление стоек выходит на уровень свыше 100 кВт, а к концу десятилетия дойдет до 300 кВт. При этом тепловая нагрузка растет еще быстрее, чем электрическая. Традиционные методы воздушного охлаждения просто не могут угнаться за этим растущим тепловым потоком. Физика беспощадна, и отрасль сейчас сталкивается с фундаментальной реальностью: охлаждение стало одной из самых сложных инженерных задач в современной инфраструктуре, и для ее решения потребуется новое поколение технологий и архитектур.
1. Прямое жидкостное охлаждение чипов — это базовый уровень, а не исключение
В выставочном зале SC25 в этом году один коллега заметил, что создается впечатление, будто мы попали на конференцию сантехников. Это свидетельствует о том, что прямое жидкостное охлаждение чипов (D2C) становится стандартной конструкцией для новых стоек для ИИ. Мы перешли порог, когда воздушное охлаждение больше нельзя улучшить с помощью продуманных воздуховодов, более высоких скоростей вентиляторов или незначительного повышения эффективности. Как только мощность серверных стоек решительно превысит 100 кВт — а со многими это уже произошло — законы физики проявят свою беспощадность.
Жидкостное охлаждение перестало быть экспериментальной технологией, и реальный страх перед протеканием воды через серверные стойки, заполненные электроникой стоимостью в миллионы долларов, остался в прошлом. Операционные сценарии понятны, проблемы с надежностью в значительной степени решены, а преимущества в производительности неоспоримы. D2C-охлаждение обеспечивает более высокие устойчивые тактовые частоты, лучшую надежность кремниевых компонентов и более плотную компоновку без чрезмерного энергопотребления вентиляторов и чиллеров. В 2026 г. вопрос будет звучать не «Следует ли использовать жидкостное охлаждение?», а «На каком уровне стека мы должны учитывать его при проектировании?».
2. Производительность vs. эффективность: инженерная развилка
По мере того, как мощность стоек для ИИ приближается к
Поскольку архитектура охлаждения напрямую определяет достижимую производительность и энергозатраты, выбранный подход к проектированию становится стратегическим сигналом. Ни один из описанных подходов не является по своей сути «правильным», но эту развилку невозможно будет игнорировать. Геополитика, культурные предпочтения и рыночные силы — все это будет влиять на выбор пути, по которому пойдут операторы.
3. Управление охлаждением с помощью ИИ — ИИ для ИИ
Этот странный мир использования ИИ для создания лучшего ИИ распространится и на охлаждение дата-центров. Противоречие между производительностью и эффективностью порождает потребность в тонкой настройке с помощью ИИ для управления сложным и обширным набором параметров, позволяющих оптимизировать производительность приложений с минимальными потерями электроэнергии, воды и неэффективным использованием оборудования. Системы управления охлаждением с помощью ИИ будут дополнять классические методы управления, позволяя прогнозировать перегрев до его возникновения, оптимизировать поток охлаждающей жидкости с гораздо большей точностью и динамически корректировать заданные значения температуры в зависимости от поведения рабочей нагрузки. Эти системы также будут играть все более важную роль в обнаружении отказов и увеличении срока службы оборудования за счет выявления незначительного снижения производительности насосов, охлаждающих пластин или теплообменников задолго до того, как это станет очевидным в процессе эксплуатации.
Возможно наиболее интересным является то, что системы охлаждения с помощью ИИ будут влиять на решения о размещении рабочих нагрузок. Термально-ориентированные планировщики, учитывающие ограничения как по вычислениям, так и по охлаждению, будут становиться все более ценными, поскольку люди просто не смогут настраивать эти системы достаточно быстро или с достаточной точностью.
4. Более высокая точность охлаждения
Прямое жидкостное охлаждение чипов положило начало тренду прецизионного охлаждения, дополнив воздух, проходящий через серверы, холодными пластинами, расположенными непосредственно на чипах, выделяющих наибольшее количество тепла. В новейших системах используются контуры жидкостного охлаждения, охватывающие все компоненты серверов, и ведутся дискуссии о температуре и расходе воды для поддержания всех параметров в пределах рабочих характеристик. При большой теплоемкости систем и многочиповых модулях универсальное решение для массового охлаждения становится сложной задачей и не столь эффективным, как система, которая может точно направлять охлаждение туда, где оно необходимо.
Усовершенствование контуров жидкостного охлаждения путем разделения их на индивидуально модулируемые подконтурные системы, оптимизированные для конкретных нагрузок на подсистемы обработки, памяти, хранения или ввода-вывода, позволит более эффективно применять охлаждение там, где оно наиболее необходимо. Кроме того, очаги перегрева в системе могут быть подавлены с помощью целенаправленного использования таких технологий, как термоэлектрическое охлаждение (ТЭО), наложенное на системы жидкостного охлаждения. ТЭО может подавлять переходные очаги перегрева, которые вызывают термическое дросселирование, и термически изолировать кремниевые кристаллы с различными требованиями к рабочей температуре. Интеграция хорошо спроектированной системы жидкостного охлаждения с термоэлектрическим охладителем и интеллектуальным управлением может помочь максимизировать производительность при минимизации энергопотребления.
5. Уже виден победитель в области технологий охлаждения следующего поколения
Для решения задач, связанных с экстремальной плотностью мощности систем для ИИ следующего поколения разрабатывается несколько инновационных технологий охлаждения, включая двухфазное прямое охлаждение чипов, микрофлюидное охлаждение на чипе и однофазное иммерсионное охлаждение. Все три технологии технически впечатляют, и их продвижением занимаются талантливые инженерные команды. Но исходя из экономических реалий поставщиков консолидированных продуктов и услуг в сфере производства и упаковки полупроводниковых компонентов, стандартизация строительных блоков OEM/ODM-систем и агрессивные графики разработки платформ требуют сосредоточенности на реализации и конвергенции решений в рамках всей экосистемы. В какой-то момент должен быть выбран победитель для следующего поколения. Я ставлю на прямое двухфазное охлаждение чипов.
Двухфазное охлаждение исключительно хорошо подходит для работы с экстремальными тепловыми потоками, которые станут реальностью, когда плотность мощности стоек превысит 100 кВт. Оно также естественным образом интегрируется с существующими архитектурами жидкостного охлаждения D2C и может использоваться с другими технологиями для снижения перегрева и управления тепловыми процессами. На мой взгляд, у неё наилучшие шансы стать следующей фундаментальной технологией стандартизированной системы охлаждения для типичной инфраструктуры ИИ.
Взгляд в будущее
Я считаю, что































