ОБЗОРЫ

Версия NEC

Суперкомпьютеры работают очень быстро благодаря использованию не только самой современной элементной базы, но и принципиальных решений, заложенных в их архитектуру. Среди них основную роль играет принцип параллельной обработки данных, воплощающий идею одновременного (параллельного) выполнения нескольких действий. Как известно, параллельная обработка имеет две разновидности: конвейерность и собственно параллельность*1 Основным параметром при классификации параллельных компьютеров является наличие общей или распределенной памяти. Нечто среднее представляют собой архитектуры, в которых память физически распределена, но логически общедоступна. С аппаратной точки зрения для реализации параллельных систем используются две основные схемы. Первая - несколько отдельных систем с локальной памятью и процессорами, взаимодействующих в какой-либо среде посредством посылки сообщений. Вторая - системы, взаимодействующие через разделяемую память.

_____

*1 Есть ещё третья - ассоциативность. Прим. гл. ред.

Основной признак параллельно-векторных систем (PVP, Parallel Vector Processing) - наличие специальных векторно-конвейерных процессоров, эффективно выполняющих команды однотипной обработки векторов независимых данных, на конвейерных функциональных устройствах. Как правило, несколько таких процессоров (1-16) работают одновременно над общей памятью (аналогично SMP) в рамках многопроцессорных конфигураций. Отдельные узлы могут быть объединены с помощью коммутатора. Типичным примером PVP-решений могут служить системы SX, которые создает подразделение корпорации NEC - HNSX Supercomputers (www.sw.nec.co.jp). Несколько лет назад считалось, что PVP-системы вскоре будут полностью вытеснены массивно-параллельными компьютерами. Однако этого не произошло. Развитие PVP-архитектуры продолжается, а суперкомпьютеры, созданные на ее основе, в ряде случаев существенно опережают конкурентов.

Суперкомпьютеры NEC SX

Корпорация NEC (www.nec.com) имеет давние традиции производства больших универсальных ЭВМ (достаточно упомянуть выпускавшиеся в 80-х годах мэйнфреймы ACOS). Примерно в то же время появились и первые суперкомпьютеры семейства SX. Процессоры в SX-1 имели пиковую производительность 570 Мфлопс. Во второй половине 80-х были разработаны NEC SX-2 с циклом 6 нс; пиковая производительность старшей модели SX-2 составляла уже 1,3 Гфлопс. В 1989 г. была выпущена NEC SX-3 с пиковой производительностью центрального процессора около 5 Гфлопс, имевшая до 4 процессоров.

К современному поколению суперкомпьютеров следует отнести КМОП-системы NEC SX-5 и SX-6. Здесь стоит напомнить, что многие суперкомпьютеры долгое время использовали ЭСЛ-технологию (транзисторы с эмиттерно-связанной логикой), которая отличается достаточно высоким энергопотреблением. Во многом именно благодаря применению КМОП-технологии системы SX-4 стали первыми в мире суперкомпьютерами PVP-архитектуры, работающими с воздушным, а не с жидкостным охлаждением. Современные полупроводниковые КМОП-микросхемы обеспечили не только более высокую степень интеграции, но и хорошую масштабируемость по частоте.

Когда NEC в 1995 г. анонсировала суперкомпьютеры SX-4, большинство специалистов в области высокопроизводительных вычислений считали, что он станет последним "динозавром" векторной архитектуры. Однако сейчас, с появлением масштабируемых векторных систем, интерес пользователей к векторным архитектурам возвращается. Кстати, на момент своего выпуска модель SX-4 показала производительность на уровне 1 Тфлопс.

Суперкомпьютеры различных поколений NEC совместимы снизу вверх. К основным компонентам архитектуры NEC SX относятся центральный процессор, подсистемы оперативной памяти и ввода-вывода. Данные компоненты объединяются в узлы SMP-архитектуры, которые, в свою очередь, связаны через межсоединение Internode Crossbar Switch (IXS). При этом вся память всех узлов является общей; иными словами, многоузловые модели SX обладают архитектурой NUMA.

Каждый центральный процессор в NEC SX состоит из двух главных блоков: векторного и скалярного устройств. В архитектуре SX имеются операционные векторные регистры (над ними выполняются основные команды) и векторные регистры данных. В большинстве случаев применение векторных регистров позволяет значительно уменьшить трафик при обмене данными между центральным процессором и оперативной памятью.

Исполнительные блоки векторного устройства конвейеризованы. Основные конвейеры в SX - блоки сложения/сдвига, умножения, деления и логических операций. Как это характерно для многих PVP-систем, операции над векторами могут выполняться при участии маски, для чего в архитектуре предусмотрено наличие регистров маски.

Скалярное устройство в SX содержит кэш данных и кэш команд, а также 64-разрядные регистры общего назначения. Так, для SX-5 размеры указанной кэш-памяти составляют по 64 Кб, а количество регистров общего назначения равно 128. Все команды выдает на выполнение скалярное устройство, способное декодировать до четырех команд за такт. Например, как скалярное, так и векторное устройства SX-5 оперируют 32- и 64-разрядными числами с плавающей запятой в формате IEEE. Скалярное устройство SX-5 поддерживает также 128-разрядные числа расширенной точности.

В составе процессора кроме скалярного и векторного устройств можно также выделить интерфейс с оперативной памятью и так называемые коммуникационные регистры. Они служат в первую очередь для обеспечения синхронизации при распараллеливании задач.

Подсистема памяти SMP-узлов SX доступна процессорам через неблокирующийся коммутатор. Так, каждая плата памяти SX-5 может обладать емкостью 4 Гб, а весь 16-процессорный узел - до 128 Гб. Вся оперативная память разбита на банки. Платы памяти SX умеют обрабатывать запросы к оперативной памяти во внеочередном порядке, что повышает эффективную пропускную способность в случае конфликтов при обращении к банку памяти. Конвейерная выдача данных из памяти, поддержка возможности переупорядочения запросов к памяти для уменьшения конкуренции из-за доступа к ней, наличие аппаратных средств, позволяющих скрыть задержки при обращении к оперативной памяти, - все это дает возможность поддерживать высокую реальную пропускную способность памяти.

В NEC SX используется страничная адресация оперативной памяти. За счет этого программные модули могут загружаться в несмежные области физической оперативной памяти, т. е. устраняются проблемы фрагментации. IXS обеспечивает работу с таблицами страниц при глобальной адресации оперативной памяти, с коммуникационными регистрами и командами глобальной пересылки данных.

Рис. 1. Архитектура SX-6

Основными блоками подсистемы ввода-вывода в NEC SX являются специализированные процессоры. Эти функциональные устройства освобождают центральный процессор от непосредственного управления вводом-выводом. Стоит отметить, что в NEC SX-5 пропускная способность процессоров ввода-вывода была увеличена вдвое по сравнению с SX-4 и составляет около 3,2 Гб/с. В SMP-узле SX-5 может быть до четырех таких устройств. Каждое из них способно поддерживать работу многих каналов ввода-вывода при наличии соответствующих канальных плат. В SX используются канальные карты - HIPPI-800 (100 Мб/с), FC-AL (1 Гбит/с) и Ultra SCSI.

Серия SX-5

Эти суперкомпьютеры предназначены для крупномасштабных параллельных вычислений за счет набора параллельно работающих узлов, каждый из которых, в свою очередь, является полноценным векторно-конвейерным SMP-суперкомпьютером.

Некоторые подробности о Earth Simulator

Все 640 узлов Earth Simulator основаны на архитектуре NEC SX. Каждый процессорный узел PN (Processor Node) состоит из восьми арифметических процессоров векторного типа AP (Arithmetic Processor), 16 Гб основной памяти MS (Memory System), удаленного устройства управления RCU (Remote Control Unit) и процессора ввода-вывода I/O. Пиковая производительность каждого AP составляет 8 Гфлопс. В состав Earth Simulator входит 5120 AP. Теоретическая производительность системы может достигать 40 Тфлопс. Время цикла - 2 нс.

Модуль векторного процессора имеет размеры 115х139 мм. Однокристальные процессоры системы созданы по 0,15 мкм технологии с восемью слоями медной металлизации и содержат приблизительно 60 млн. транзисторов. Количество выводов составляет 5185. Тактовая частота достигает

· ГГц, потребляемая мощность - 140 Вт.

Подсистема MDPS (Mass Data Processing System) включает четыре файловых сервисных процессора, 250 Тб дисковой и 1,5 Пб ленточной памяти. Последняя выполнена на базе библиотеки StorageTek 9310. Объем оперативной памяти для всей системы составляет 10 Тб, а общий объем дисковой памяти, включающий рабочее дисковое пространство (около 460 Тб), превышает 700 Тб.

В качестве операционной системы используется SUPER-UX. Программное обеспечение и среда разработки основаны на UNIX и созданы специально для суперкомпьютеров NEC SX-серий. Применяемые языки программирования - Fortran90, HPF, C и C++. Трансляторы этих языков могут выполнять автоматическое распараллеливание и векторизацию. Кроме того, имеются библиотека передачи сообщений MPI2 и математическая библиотека ASL/ES.

Всякий узел в максимальной конфигурации предоставляет вычислительную производительность до 128 Гфлопс, объем основной памяти до 128 Гб и пропускную способность каналов ввода-вывода до 12,6 Гб/с. Специалисты отмечают, что таких показателей не давала ранее ни одна система с разделяемой памятью. Достаточно сказать, что производительность обменов с памятью для полного узла достигает 1 Тб/с. В узел встроено такое количество независимых банков памяти, которое необходимо для того, чтобы минимизировать конфликты по использованию микросхем памяти между 16 индивидуальными процессорами (с пиковой векторной производительностью 8 Гфлопс каждый). Скалярная производительность достигает 500 Мфлопс. В системах SX-5 применяется высокоскоростной неблокирующий коммутатор IXS, чтобы связать между собой до 32 таких узлов. В этом случае пиковая производительность может достигать 4 Тфлопс.

В системах семейства SX-5 пиковая производительность процессора, объем памяти и пропускная способность канала процессор - память улучшились примерно в четыре раза по сравнению с системами SX-4. По данным пользователей SX-5, на большинстве реальных приложений достигается не менее 90% пиковой производительности, в то время как для масштабируемых параллельных систем на базе RISC неплохим результатом считается достижение от 15 до 30% от пиковой производительности.

Серия SX-6

Суперкомпьютеры семейства SX-6 представляют собой параллельные векторные системы с общей пиковой производительностью всей системы до 8 Тфлопс. Система может включать до 128 узлов, каждый из которых содержит от двух до восьми процессоров и общую память до 64 Гб. Пиковая производительность одного процессора достигает 8 Гфлопс, т. е. такая же, как в SX-5.

Высокая производительность SX-6 достигается за счет использования до 8 Тб памяти SDRAM (256-битные микросхемы) и системного коммутатора с высокой пропускной способностью. В многоузловой системе пропускная способность памяти обеспечивается на уровне 32 Тб/с. Серия SX-6 унаследовала от SX-5 архитектуру с разделяемой памятью и применение КМОП-технологии. Относительно низкая цена и сравнительная компактность системы SX-6 обусловлены размещением процессора целиком на одной микросхеме, соблюдением жестких проектных норм 0,15 мкм технологии, тогда как процессор SX-5 базируется на 0,25 мкм технологии, а для своей реализации требует 32 микросхемы среднего уровня интеграции.

По сравнению с SX-5 более чем на 80% уменьшились линейные габариты суперкомпьютера SX-6 и потребление электроэнергии, что, в свою очередь, позволяет использовать во всех моделях воздушное охлаждение. Представители NEC заявляют, что эти два фактора (габариты и энергопотребление) значительно повлияли на резкое снижение стоимости установки и обслуживания SX-6. А 0,15 мкм технология привела к значительному уменьшению числа компонентов системы, а следовательно, к существенному повышению надежности оборудования.

Вместе с SX-6 поставляется системное программное обеспечение, позволяющее соединенным по сети персональным компьютерам, рабочим станциям Unix и суперкомпьютерам серии SX-6 служить в качестве единой системы. Инструменты и библиотеки для разработки параллельных задач включают MPI, отладчик Total View и инструмент Vampir/SX для оценки производительности программы. Было произведено модифицирование операционной системы и программного обеспечения для поддержки увеличенной многоузловой системы. Базовая ОС SUPER-UX предлагает улучшенную поддержку SSI (Single System Image), вместе с тем обеспечивая совместимость с SX-5. Помимо С++ и Fortran 90 представлены такие средства разработки, как OpenMP и HPF 2.0 Серия SX-6 также предлагает Web Supercomputing Environment (WSE) в качестве средства связывания в единый вычислительный комплекс суперкомпьютеров, UNIX-серверов и ПК, подключенных к Интернету или интранету. При помощи этой системы можно загружать приложения, находящиеся в многомашинной системе, манипулировать файлами и выполнять различные команды, используя интуитивно понятные GUI-операции.

Рис. 2. Суперкомпьютер Earth Simulator

Различие между одноузловыми моделями А и В заключается в том, что модель А сконфигурирована на восемь процессоров (64 Гфлопс) и 64 Гб основной памяти, в то время как модель В имеет до четырех процессоров (32 Гфлопс) и только 32 Гб основной памяти.

Серия SX-7

Что касается серии систем SX-7, то с нею связана некоторая путаница. Дело в том, что эти системы (на шкафах которых действительно написано SX-7), по заверению самих же разработчиков из NEC, хотя и содержат новые технологии, на самом деле являются лишь расширением SX-6-архитектуры, но никак не ее революционным продолжением. Создание таких систем было рассчитано лишь на некоторых пользователей в Японии, однако эти суперкомпьютеры сумели привлечь к себе внимание специалистов всего мира. Так, пиковая производительность одного узла системы SX-7 составляет 282,5 Гфлопс, что в три с лишним раза больше, чем у SX-6. Всего машина может содержать до 64 подобных узлов. Узел SX-7 поддерживает до 32 процессоров, что вчетверо больше по сравнению с SX-6. В максимальной многоузловой конфигурации суперкомпьютер показывает пиковую производительность 18,1 Тфлопс. Как уже отмечалось, повышение производительности достигается за счет ряда усовершенствований, в частности путем увеличения емкости совместно используемой памяти на каждом узле с 64 до 256 Гб, а также повышения максимальной скорости передачи данных с 256 Гб/с до 1,13 Тб/с. Улучшены также процессоры (в системе используются оригинальные процессоры разработки NEC); быстродействие прежних составляло 8 Гфлопс, новых - 8,83 Гфлопс.

Earth Simulator

Как известно, чтобы узнать, какие суперкомпьютеры имеют максимальную производительность, университеты Маннгейма (Германия) и Теннеси (США), а также Национальный научно-вычислительный центр энергетических исследований США (NERSC) в Беркли (Калифорния) два раза в год публикуют официальный список пятисот самых мощных систем мира - Top500 (www.top500.org).C уперкомпьютер Earth Simu-lator, созданный при непосредственном участии специалистов корпорации NEC, первый раз стал наиболее производительной в мире системой еще летом 2002 г. (в 19-й версии рейтинга Top500).

Собственно о завершении работ над высокопроизводительной векторно-параллельной системой "Имитатор Земли" (Earth Simulator) и ее передаче в Центр моделирования Земли (ESC, Earth Simulator Center) было объявлено еще весной того же года. Система создавалась в течение пяти лет Научно-исследовательским центром моделирования Земли (ESRDC, Earth Simulator Research and Development Center) в сотрудничестве с японским Национальным агентством по исследованию космоса (NASDA), Японским институтом по исследованию атомной энергии (JAERI) и Японским морским научно-техническим центром (JAMSTEC). Затраты на проект составили 40 млрд. йен, в работах было задействовано свыше 1000 специалистов из NEC.

Система Earth Simulator размещена в здании, похожем на авиационный ангар, с площадью пола равной 50 на 65 м. Здание принадлежит Институту наук о Земле в Иокогаме (Yokohama Institute for Earth Sciences). Этот суперкомпьютер включает 640 узлов с производительностью каждого 64 Гфлопс и 5120 процессоров, соединенных 2800 км кабеля. Узлы состоят из восьми 8 Гфлопс векторных процессоров и пиковой производительностью в 40 Тфлопс. Высокоскоростная сеть соединяет процессоры со скоростью передачи данных в 12,3 Гб. Для охлаждения системы через рабочие помещения в течение 10 с прокачивается 35 млн. кубических футов воздуха.

Надо отметить, что Earth Simulator может моделировать всеобщие изменения окружающей среды на сетке, в 1000 раз более подробной, чем это было возможно на предыдущих суперкомпьютерах. Мощности созданной системы достаточно, чтобы рассчитывать и предсказывать погоду значительно точнее. Earth Simulator также позволяет изучать движение океанских течений на протяжении тысячелетнего цикла и прогнозировать изменения климата. Кстати, обнадеживающие результаты уже получены. Метеорологическое сообщество утверждает, что японский суперкомпьютер Earth Simulator превзошел самые смелые ожидания и, можно сказать, открыл новую эру в области предсказания погоды.

Ученые со всего света ждут своей очереди, чтобы поработать на японском суперкомпьютере. Некоторые из них собираются с его помощью изучать не будущий климат Земли, а наоборот, прошлый. Так, британские ученые из Бристольского университета, например, собираются смоделировать изменение климата на планете на протяжении последних 20 тыс. лет. Затем эти результаты можно будет сравнить с реальными, полученными при изучении оледенений, годичных колец на деревьях и сталактитов. По мнению экспертов, уже в ближайшие годы с помощью суперкомпьютеров палеоклиматологам удастся узнать много интересного.