Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

Как модульный подход меняет разработку AI-агентов

Разнообразие low-code и no-code решений серьезно упростило создание IT-продуктов, в том числе, и на основе …

«Инструмент, без которого уже не пишут на Go»: интервью с автором golangci-lint Денисом Исаевым

При разработке на Go активно используются линтеры — программы для статического анализа кода. Металинтер golangci-lint …

Лучшие видеоредакторы для новичков и любителей

Начать монтаж видео сегодня довольно просто, т.к. любой видеоредактор работает по понятной логике «импорт — …

Дмитрий Кузьмин: «Архитектура — это поле, где решается будущее конкурентоспособности компании»

Архитектурные решения инженера-разработчика лежат в основе крупнейших коммерческих платформ, государственных сервисов …

Почему высокопроизводительные вычисления нуждаются в переменах

29.06.2023

Мы должны усовершенствовать архитектуру высокопроизводительных вычислений (HPC), чтобы снизить барьеры для доступа к ресурсам, расширить возможности и стимулировать научные и корпоративные вычисления, пишет на портале The New Stack Грегори М. Куртцер, генеральный директор Linux-компании Ctrl IQ (CIQ).

В далеком 1994 г. — да, почти 30 лет назад! — Томас Стерлинг и Дональд Беккер построили в NASA компьютер под названием Beowulf.

Архитектура этого компьютера (он же кластер Beowulf) представляла собой совокупность недорогих персональных компьютеров, объединенных в локальную вычислительную сеть так, что вычислительная мощность могла распределяться между ними. Это был новаторский пример компьютера, специально разработанного для HPC и состоящего исключительно из стандартных комплектующих и свободно распространяемого ПО.

Кластер Beowulf можно было использовать для параллельных вычислений, в которых многие вычисления или процессы выполняются одновременно на многих компьютерах и координируются с помощью ПО для передачи сообщений. Это было началом Linux и открытого исходного кода для HPC, что сделало Beowulf поистине революционным. В течение следующих десяти с лишним лет все больше и больше людей следовали модели Beowulf. В 2005 г. Linux занял позицию № 1 в суперкомпьютерном рейтинге top500.org, и с тех пор является доминирующей ОС для HPC.

Базовая архитектура кластера Beowulf начинается с интерактивного узла (узлов) управления, где пользователи входят в систему и взаимодействуют с ней. Вычислительные мощности, хранилища и другие ресурсы подключены к частной сети (или сетям). Программный стек включает Linux, управление/эксплуатационную поддержку ОС (например, Warewulf), передачу сообщений (MPI), другое научное ПО и оптимизированные библиотеки, а также пакетный планировщик для управления заданиями пользователей.

Архитектура Beowulf. Источник: CIQ

Со временем эти системы стали более сложными с несколькими уровнями хранения данных и группами вычислительных ресурсов, но базовая структура Beowulf остается неизменной на протяжении тридцати лет. Так же, как и рабочий процесс HPC; с точки зрения потребителей HPC, за три десятилетия мы так и не облегчили им жизнь! В целом, каждый пользователь должен следовать одним и тем же общим шагам для всех систем HPC:

Зайти по SSH на интерактивный узел (узлы).
Изучить и понять конфигурацию системы хранения данных и точки монтирования.
Загрузить исходный код в нужное хранилище.
Скомпилировать исходный код с учетом системного или оптимизированного компилятора, математических библиотек (и их расположения), MPI и, возможно, архитектуры системы хранения и сети.
Загрузить данные для вычислений на нужный путь хранения (который может отличаться от вышеуказанного пути исходного кода).
Изучить очереди, учетные записи и политики менеджера ресурсов.
Протестировать и проверить скомпилированное ПО на тестовых данных.
Отследить выполнение заданий и проверить их работоспособность.
Проверить выходные данные задания.
Повторить при необходимости.
Выгрузить полученные данные для последующей обработки или дальнейшего исследования.

Постоянно растущие издержки использования архитектуры HPC 30-летней давности

Продолжающееся использование устаревшей архитектуры HPC дорого обходится научному сообществу в виде упущенных возможностей, невостребованного эффекта масштаба и теневых затрат на ИТ.

К упущенным возможностям относится то, что многие исследователи и организации не могут использовать устаревшую вычислительную архитектуру HPC и вместо этого вынуждены применять неподдерживаемые, немасштабируемые и непрофессионально обслуживаемые архитектуры. Например, множество исследователей используют в качестве вычислительной инфраструктуры свои ноутбуки.

Другие упущенные возможности включают неспособность приспособиться к современным рабочим нагрузкам, многие из которых недостаточно поддерживаются устаревшей архитектурой HPC. Например, практически невозможно надежно интегрировать традиционную архитектуру системы HPC в конвейеры CI/CD для автоматизированного обучения и аналитики, более простые фронтенды разработки и ресурсов, такие как Jupyter (об этом позже), рабочие места с постоянно растущим разнообразием и мультипремисные, офпремисные и даже облачные ресурсы.

Кроме того, многие предприятия демонстрируют сопротивление унаследованным системным архитектурам типа Beowulf: «Мы больше не хотим, чтобы наши системные администраторы использовали Secure Shell (SSH), а Beowulf требует, чтобы все пользователи использовали SSH для взаимодействия с системой!».

Когда ИТ-командам приходится создавать индивидуальные системы для конкретных нужд и использования (а именно это происходит сейчас во многих научных центрах), они не могут эффективно использовать инвестиции в оборудование, поскольку каждая «система» существует как изолированный пул ресурсов. Мы видим это сейчас, когда центры создают совершенно отдельные системы для вычислительных сервисов и Jupyter с Kubernetes. Невостребованным оказывается эффект масштаба, которого можно было бы достичь, если бы ресурсы HPC должным образом поддерживали все эти сценарии использования.

Более того, в слишком многих случаях исследовательские группы пытаются создавать собственные системы или использовать облачные экземпляры самостоятельно, без привлечения ИТ-служб, поскольку считают, что те не предоставляют им инструменты, необходимые для проведения исследований. Хотя облако упростило некоторые виды вычислений, оно не всегда имеет смысл по сравнению с локальными онпремисными ресурсами или если вы привязаны к одному облачному поставщику.

Эти печальные истины тормозят исследования и научный прогресс.

Намеки на прогресс?

Конечно, появилось несколько вещей, которые немного облегчили работу пользователей HPC. Например, Open OnDemand — это фантастический способ инкапсулировать всю архитектуру Beowulf и предоставить ее пользователю в виде графического интерфейса на основе http (т. е. веб-интерфейса). OnDemand предлагает большую ценность, предоставляя более современный пользовательский интерфейс, чем SSH, но многие пользователи обнаружили, что он не значительно снизил барьер входа, поскольку все равно приходится проделывать все те же шаги, о которых говорилось выше.

Еще одно усовершенствование — блокноты Jupyter Notebooks, которые стали огромным скачком в плане улучшения жизни исследователей и разработчиков. Часто используемый в академических кругах в учебных целях, Jupyter помогает исследователям вести разработку в режиме реального времени и запускать блокноты с помощью более современного интерактивного веб-интерфейса. Благодаря Jupyter мы наконец-то видим, что пользовательский опыт меняется — список шагов упрощается.

Однако Jupyter в целом не совместим с традиционной архитектурой HPC, и, как следствие, его не удалось интегрировать в существующие архитектуры HPC. В реальности ряд традиционных центров HPC с одной стороны запускают свои традиционные системы HPC, а с другой — используют систему Jupyter для работы поверх Kubernetes и инфраструктур, ориентированных на предприятия. Правда, для объединения этих подходов можно использовать Open OnDemand плюс Jupyter, но это усложняет процесс для пользователей — добавляются дополнительные и различные шаги.

Контейнеры ведут к более современному миру HPC

Контейнеры послужили «ящиком Пандоры» (в хорошем смысле!) для мира HPC, продемонстрировав, что существует множество инноваций, появившихся в областях, не связанных с HPC, которые могут быть весьма полезны для сообщества HPC.

Появление контейнеров на предприятиях произошло благодаря Docker и подобным программам, но эти контейнерные реализации требовали привилегированного root-доступа для работы и, таким образом, создавали риски безопасности для систем HPC, позволяя непривилегированным пользователям запускать контейнеры. Именно поэтому была создана первая контейнерная система общего назначения для HPC — Singularity, которая сразу же была принята центрами HPC по всему миру из-за огромного ранее неудовлетворенного спроса. Впоследствии Singularity была передана в Linux Foundation, чтобы гарантировать, что проект всегда будет предназначен для сообщества, развиваться сообществом и свободен от любого корпоративного контроля. В рамках этого перехода проект был переименован в Apptainer.

Apptainer изменил представление людей о воспроизводимых вычислениях. Теперь приложения стали гораздо более переносимыми и многократно используемыми системами, исследователями и инфраструктурами. Контейнеры упростили процесс создания пользовательских приложений для HPC-систем, поскольку теперь их можно легко заключить в контейнер, включающий все зависимости. Контейнеры сыграли важную роль в начале процесса модернизации HPC, но это только первый шаг к тому, чтобы сделать жизнь пользователей HPC лучше. Представьте себе, что будет дальше, когда мы приступим к трансформации HPC и создадим среды HPC следующего поколения.

Что нас ждет?

Пришло время для трансформации вычислений: общая архитектура HPC должна быть модернизирована, чтобы иметь возможность лучше обеспечивать более широкий спектр приложений, рабочих процессов и сценариев использования. Используя преимущества современных инфраструктурных инноваций (облачная архитектура, аппаратные средства, такие как GPU, и т. д.), мы должны создавать системы HPC, поддерживающие не только исторические/унаследованные сценарии использования, но и следующее поколение рабочих нагрузок HPC.

Концепция заключается в том, чтобы предоставить современную гибридную, федеративную инфраструктуру, основанную на облаке, которая позволит запускать кластеры онпремис и мультитмпремис, в облаке и мультиоблаке, даже в нескольких регионах доступности в мультиоблаке.

Гигантская архитектура распределенных вычислений будет сшита вместе единым API, предлагая исследователям полную гибкость в локальности, мобильности, гравитации и безопасности данных. Кроме того, концепция предполагает абстрагирование от всех сложностей работы и минимизацию шагов, связанных с выполнением рабочих процессов HPC.

Цель состоит в том, чтобы обеспечить науке новые возможности благодаря модернизации архитектуры HPC — как для поддержки большего разнообразия задач, так и для снижения барьера входа в HPC для большего числа исследователей, оптимизируя опыт для всех.

Печать Печать без изображений

	События
	Эксперты, регуляторы и звезды шоу-бизнеса объединяются против мошенников: в Москве состоится форум «АнтиФрод Россия» 11 декабря 2025 г. (четверг), 09:00 — 18:00, Цифровое Деловое Пространство (ЦДП)

Статьи по теме

Deloitte: в 2026 году корпоративный ИИ вызовет «инфраструктурный суперцикл»

Согласно отчету Deloitte «TMT Predictions 2026», в следующем году движущей силой трансформации предприятий станут агенты …

Модернизация дата-центров: шесть альтернатив дорогостоящей реконструкции

Организации, сталкивающиеся с проблемой устаревшей инфраструктуры центров обработки данных, имеют шесть практических …

От осознания рисков к эволюции решений: почему бизнесу пора пересмотреть подход к балансировщикам нагрузки

Для крупного бизнеса балансировщик нагрузки давно перестал быть «технической деталью». Это — узел, через который проходит …

Omdia: к 2030 году стойки Open Rack будут доминировать в дата-центрах для ИИ

Эта сдвиг обусловлен растущими требованиями к инфраструктуре серверов искусственного интеллекта, которым требуется …

Гиперконвергенция или традиционный подход: как выбрать путь для бизнеса в условиях импортозамещения

Изменение глобального технологического ландшафта России поставило перед отечественными предприятиями ряд вопросов, касающихся …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Почему высокопроизводительные вычисления нуждаются в переменах

Постоянно растущие издержки использования архитектуры HPC 30-летней давности

Намеки на прогресс?

Контейнеры ведут к более современному миру HPC

Что нас ждет?

Комментарии