Специалисты группы компаний РСК совместно с Лабораторией информационных технологий им М.Г. Мещерякова Объединенного института ядерных исследований (ЛИТ ОИЯИ) завершили новый этап модернизации суперкомпьютера «Говорун». Вычислительные ресурсы этой системы были расширены за счет установки двух узлов на базе нового серверного решения «РСК Экзастрим ИИ» c 8-ю графическими ускорителями NVidia H100 в каждом и прямым жидкостным охлаждением. Новые сервера уникальны и были сконструированы и изготовлены для СК «Говорун» с учетом его архитектурных особенностей. При этом пиковая производительность ГПУ компоненты суперкомпьютера «Говорун» выросла на 36% и достигла 1,4 Петафлопс (в операциях с числами с двойной точностью), а пиковая суммарная производительность всего суперкомпьютера теперь составляет 2,2 Петафлопс в операциях с числами с двойной точностью. Эти результаты модернизации вычислительной системы «Говорун» были представлены на международной конференции GRID 2025, проходящей на этой неделе в ЛИТ ОИЯИ в Дубне.

«Сервера „РСК Эксзастрим ИИ“, установленные в суперкомпьютере „Говорун“, являются современной модульной аппаратно-программной платформой для высокопроизводительных вычислений, направленных на решение научно-инженерных задач с помощью технологий искусственного интеллекта. Мы полагаем, что это позволит более широко и интенсивно внедрять различные методы машинного обучения при реализации исследовательских программ ОИЯИ», — подчеркнул директор ЛИТ ОИЯИ С.В. Шматов.

Решение «РСК Экзастрим ИИ» представляет собой вычислительный сервер с пулом графических карт (GPGPU) с прямым жидкостным охлаждением, попарно объединённых мостами на базе технологии высокоскоростных соединений NVLink для обеспечения быстрой передачи данных между графическими процессорами (GPU). Кроме того, оно имеет локальную подсистему хранения «теплых данных», сетевую подсистему с доступом на основе технологии GPUDirect. Также в «РСК Экзастрим ИИ» реализована возможность расширения ресурсов путем подключения дополнительных пар GPU или системы внешнего хранения данных на базе пула твердотельных дисков (JBOF), подключаемой напрямую к серверу.

Конфигурация серверов «РСК Экзастрим ИИ», установленных в ОИЯИ:

  • высота узла 2U;
  • два процессора Intel Xeon Platinum 8468 (4-го поколения, 48 ядер, тактовая частота 2,1-3,8 ГГц, объем кэш-памяти 105 Мб);
  • 8 графических ускорителей NVidia H100 (PCIe, 80 Гб);
  • 1 Тб оперативной памяти;
  • 16 Тб емкости хранения данных на базе SSD-дисков с интерфейсом NVMe;
  • 4 блока питания производства РСК;
  • система прямого жидкостного охлаждения разработки РСК.

Кроме того, в конце 2024 года было проведено расширение системы хранения данных (СХД) суперкомпьютера «Говорун», в результате чего общая емкость хранения увеличилась на 25% — с 8 до 10 Петабайт. В состав СХД вычислительного комплекса ОИЯИ были добавлены еще два узла хранения данных RSC Tornado AFS емкостью 1 ПБ каждый. Обновленная модификация СХД RSC Tornado AFS включает серверную плату на базе процессоров Intel Xeon 4-го поколения, а также коммутатор с интерфейсом PCIe Gen4, что позволило установить по два адаптера интерконнекта с пропускной способностью 200 Гбит/с каждый. Кроме того, СХД RSC Tornado AFS поддерживает технологию GPUDirect Storage (GDS), которая обеспечивает прямую передачу данных между локальным или удаленным хранилищем и памятью графического процессора.

«Гибкая система конфигурирования, реализованная в СХД RSC Tornado AFS с помощью модуля „РСК БазИС СХД“, позволяет нам достигать наивысшей эффективности в использовании ресурсов суперкомпьютера „Говорун“ для решения широкого круга задач, стоящих перед Институтом и имеющих самые разные требования к параметрам производительности подсистемы доступа к данным. Эти задачи могут требовать, как высокой скорости для чтения/записи больших порций данных, так и обработки большого числа запросов к небольшим порциям данных. В частности, два новых сервера RSC Tornado AFS уже задействованы для распределенной файловой системы Lustre и используются для работы с данными мегопроекта NICA», — отметил Научный руководитель ЛИТ ОИЯИ В.В. Кореньков.

В вычислительной системе «Говорун» используются интегрированный программный комплекс «РСК БазИС 4» и модуль «РСК БазИС СХД» (включены в Реестр российского ПО).

«РСК БазИС СХД» — программный модуль, разработанный для автоматизации процесса создания статических и динамических систем хранения данных по запросам пользователей или операторов вычислительного комплекса.

Функциональные возможности этого модуля реализованы с помощью средств программного решения «РСК БазИС 4», которое позволяет оператору вычислительной системы описывать все компоненты кластера, устанавливать статичные или динамические связи между объектами управления, то есть осуществлять конфигурирование всего комплекса. Микроагентная архитектура «РСК БазИС 4» позволяет не только поддерживать все объекты системы в рабочем состоянии, но и активно взаимодействовать с ними, тем самым повышая эффективность использования вычислительных ресурсов.

Они поставляются заказчикам в составе программно-аппаратных решений на базе высокоплотной и энергоэффективной платформы «РСК Торнадо» и в составе других решений РСК. «РСК БазИС», в сочетании с аппаратными платформами РСК, позволяет создавать гиперконвергентные решения для высокопроизводительных вычислений и эффективной обработки больших объемов данных.

Вычислительные ресурсы и СХД суперкомпьютера «Говорун» используются для ускорения комплексных теоретических и экспериментальных исследований в области физики высоких энергий, ядерной физики и физики конденсированных сред, в том числе для реализации мега-проекта NICA по созданию на базе ОИЯИ ускорительного комплекса для воссоздания в лабораторных условиях особого состояния вещества, в котором пребывала наша Вселенная в первые мгновения после Большого Взрыва — кварк-глюонную плазму. Реализация этого мега-проекта начата в 2013 году.

Стоит отметить, что две СХД, установленные ранее специалистами РСК в составе суперкомпьютера «Говорун» Объединенного института ядерных исследований, входят в мировой рейтинг IO500 самых высокопроизводительных системам хранения данных. В текущий список IO500 (июнь 2025 г.) входит сегмент СХД на базе решения RSC Storage onDemand с поддержкой новой системы хранения с открытым кодом DAOS — он лидирует среди российских систем хранения данных и занимает 139-ю позицию. Этот проект на базе распределенной системы хранения объектов DAOS реализован для обработки данных в рамках реализации мегапроекта NICA. Сегмент хранения на базе файловой системы Lustre в ОИЯИ сейчас размещается в этом рейтинге на 167-м месте. Уместно напомнить, что СХД суперкомпьютера «Говорун» еще в июне 2018 г., сразу после установки и запуска в эксплуатацию, заняла высокое 9-е место в мировом списке IO500. Система хранения данных в ОИЯИ смогла занять столь высокие позиции в этом мировом рейтинге благодаря применению уникальной технологии создания многоуровневых, масштабируемых, распределённых и компонуемых «по требованию» систем хранения данных класса RSC Storage on-Demand с поддержкой файловых систем NFS и Lustre, а также распределенной системы хранения объектов DAOS.