ОБЗОРЫ

В середине ноября в американском городе Тампа (шт. Флорида) прошла очередная международная конференция по суперкомпьютерам Supercomputing’2006 (sc06.supercomputing.org). На ее открытии выступил известный футуролог и изобретатель Рей Курцвейл (www.kurzweilai.net), разработчик систем искусственного интеллекта, автор первой в мире системы оптического распознавания текстов. В своем выступлении, которое заслуживает отдельного обзора, он заявил, что молекулярный компьютер к 2030 г. обретет силу человеческого интеллекта. Для этого, полагает Рей, придется выполнить реверс-инжиниринг мозга, и такие работы сегодня уже ведутся. Через два десятка лет будут найдены лекарства от множества серьезных болезней, и ключевую роль в этом сыграют суперкомпьютеры. К тому времени появятся нанороботы, которые будут интегрированы в человеческий организм и мозг. Они предоставят человеку дополнительные органы чувств и усилят интеллект, в результате чего земная эволюция перейдет на качественно новый уровень. Продолжится экспоненциальный рост доли ИТ в современной экономике, и уже через 10-20 лет ее объем будет определяться прежде всего информационными ресурсами.

США ежегодно тратят около двух миллиардов долларов на поддержку высокопроизводительных вычислений.

В рамках конференции было организовано восемь тематических потоков: grid-вычисления, принципы устройства ведущих суперкомпьютерных комплексов, хранилища данных объемом в петабайты, распределенные технологии виртуализации, технологии сверхмасштабной визуализации, распределенные многоядерные системы, применение высокопроизводительных решений в нанонауках и использование графических плат (GPU) для универсальных расчетов.

Как обычно, немало докладов было посвящено всевозможным способам оптимизации архитектуры и управлению масштабными кластерами и суперкомпьютерами. Обсуждались наработки консорциума RDMA (www.rdmaconsortium. org), совершенствующего одноименную технологию дистанционного доступа к памяти через различные сетевые протоколы. Приглашало всех желающих к более тесному сотрудничеству международное сообщество Compframe, объединяющее разработчиков компонентов и оболочек для высокопроизводительных систем (www.compframe.org). Но в дополнение к типовым темам (оптимизация межузлового взаимодействия, ускорение доступа к общей и распределенной памяти, многоканальный доступ к ОЗУ, повышение эффективности Ethernet) активно изучались новые процессорные технологии. Так, большой интерес вызывала концепция потоковых специализированных процессоров, фактически являющихся гибридами обычных и графических чипов (в частности, был представлен AMD Stream Processor с пиковой производительностью в сотни гигафлопс), а также векторные ускорители, расширяющие возможности универсальных процессоров.

Системы управления и программирования

Растет интерес к системе управления группами Linux-кластеров OSCAR (oscar. openclustergroup.org). Она была выпущена в исходных текстах в 2001 г., и с тех пор ею воспользовалось 160 тыс. человек. К конференции приурочен выход пятой версии OSCAR со множеством улучшений и базой лучших практик управления и настройки кластеров. Схожую систему управления параллельно выполняющимися программами и оптимизации кластерных ресурсов - TORQUE Resource Manager - вместе с ее исходными текстами с сайта freshmeat.net/projects/torquerm/ ежемесячно загружают 10 тыс. пользователей. Продукт Open|SpeedShop, созданный при поддержке министерства энергетики США и переданный год назад компанией SGI сообществу разработчиков открытого кода, предназначен для анализа производительности Linux-кластеров и параллельных приложений. Он доступен на сайте oss.sgi.com/projects/ openspeedshop/.

Мэрилендский университет сообщил об открытии проекта HPCBugBase - базы опыта по характерным программным ошибкам высокопроизводительных проектов. Она доступна на сайте care.cs.umd. edu:8080/hpcs/bugbase/, оформленном в виде wiki-справочника, который помимо прочего включает многолетний опыт подобных проектов, представленный военным агентством передовых исследований США DARPA.

На конференции активно обсуждались службы управления межсоединениями. Значительная часть межузловых соединений (до 80%) в конкретных проектах может простаивать, и система, следящая за распределением нагрузки и отключающая неиспользуемые каналы, может существенно снизить расход электроэнергии. Компания Quadrics (www.quadrics.com) анонсировала очередную версию своей технологии скоростных межсоединений QsNet III, масштабируемой до 8192 узлов и развертываемой на базе сетей Ethernet 10 Гбит/с. Национальная тихоокеанская лаборатория министерства энергетики США PNNL (www.pnl.gov) представила опробованное в своей практике решение Secure Collaboration Zone, представляющее собой набор транспортных сетевых уровней, благодаря которым удается избавиться от межсетевых экранов на каждой клиентской машине и перевести деятельность по выявлению несанкционированных проникновений в сеть на центральный сервер.

Молекулярный компьютер к 2030 г. обретет силу человеческого интеллекта.

Популярный интерфейс межпроцессорного взаимодействия Message Passing Interface (www.mpi-forum.org) разработан большой группой ученых и представителей промышленности. Он реализован практически для всех параллельных платформ и популярных языков программирования. Активно развивается его открытая реализация в исходных текстах - Open MPI (www.open-mpi.org), одна из первых в мире поддержавшая спецификацию MPI-2. В настоящее время ведется разработка новой версии стандарта параллельных расчетов с общей памятью OpenMP 3.0 (www.openmp.org), в которой появятся механизмы оптимизации сложных циклов с указателями, средства эффективного построения очередей, удобной синхронизации и отслеживания простаивающих ресурсов и т. п. На конференции также было представлено расширение Nested OpenMP для эффективного моделирования иерархически организованных процессов.

Отдельный доклад касался модели Partitioned Global Address Space (PGAS), объединяющей сильные стороны OpenMP и фортрановской модели HPF, в которой разделяются не вычислительные потоки, а данные. Она позволяет специфицировать как параллельное выполнение инструкций, так и разделение доступа к блокам памяти, которые либо связываются с конкретным потоком, либо считаются глобальными. Модель PGAS реализована в виде системы Unified Parallel C (upc.lbl. gov) - расширения Си, доступного в исходных текстах.

Продолжается развитие пакета Parallel Computing Toolkit, который при решении задачи способен задействовать несколько ядер математической системы Mathematica, запускаемых на разных процессорах. Интересно, что этот пакет сам написан на встроенном языке Mathematica. Схожее решение gridMathematica эффективно эксплуатирует параллельно работающие экземпляры Mathematica в локальной сети и в кластерах.

Через 10-20 лет объемы экономик ведущих стран будут прежде всего определяться информационными ресурсами.

Grid-сети

Теме организации массовых grid-сетей с привлечением сотен тысяч добровольцев было посвящено немало выступлений. Отметим сообщение об общедоступном пакете SAGA (forge.ggf.org/sf/projects/saga-rg), представленное Open Grid Forum (www.ogf.org), который предлагает стандартизированный набор интерфейсов для приложений, работающих в grid-сетях. ПО, созданное на его основе, будет успешно выполняться на различных версиях системных grid-прослоек. Среди последних модификаций пакета - поддержка вызовов функций, написанных на С++.

Специализированные процессоры

Внимание участников привлекла новая концепция перенастраиваемых супервычислений, подразумевающая активное использование программируемых логических интегральных схем (ПЛИС). Так, сотни параллельных ПЛИС-процессоров Mitrion Virtual Processor фирмы Mitrionics (www.mitrionics.com) задействованы в качестве расширений суперкомпьютера Cray XD1 научной лаборатории ВМС США NRL - самого крупного ПЛИС-комплекса в мире. В ряде задач, связанных с моделированием физических процессов, он показывает стократное превосходство в сравнении с решениями, использующими универсальные чипы, и при этом существенно экономит энергию.

Следующим поколением ПЛИС станут программируемые логические мультиядра (Field Programmable Multi-Cores). Одной из первых подобных систем на кристалле стал продукт Acalis, созданный фирмой CPU Tech (www.cputech.com) на базе ядер IBM PowerPC. Эта фирма известна массовой поставкой подобных решений для бортовых радиолокационных станций истребителей F-16.

Как уже говорилось, на нынешней конференции отдельная сессия впервые была посвящена GPU-вычислениям, что стало знаковым событием. Если в прошлом году данная тема была затронута в одном обзорном выступлении и паре сообщений о решении с помощью GPU линейных уравнений и моделировании Марковских процессов, то на этот раз прозвучало немало докладов, в которых подробно изучались технологии ведения на графических чипах научных расчетов и способы организации проектов с привлечением тысяч энтузиастов, анализировалась эффективность доступных прикладных пакетов.

Показателен состав организаторов данной секции: корпорация Microsoft, вечные конкуренты на рынке графических плат компании ATI и NVidia, университеты Стэнфорда и Калифорнии, компания Neoptica (www.neoptica.com), специализирующаяся на создании ПО для новых процессорных архитектур, и фирма PeakStream (www.peakstreaminc.com). Последняя продемонстрировала прорывное, судя по восторженным оценкам экспертов, коммерческое решение PeakStream Platform, виртуализирующее ресурсы универсальных и специализированных процессоров, совместимое с существующими компиляторами и до 10 крат сокращающее время разработки ПО для параллельных систем.

Специально к мероприятию NVidia приурочила выход нового Си-компилятора CUDA (developer.nvidia.com/object/ cuda.html), ориентированного на решение типовых инженерных, финансовых, настольных задач на графических чипах. А представители Microsoft похвастались новым рекордом в тесте SortBenchmark (research.microsoft.com/barc/SortBenchmark/), подразумевающем сортировку миллионов записей длиной в тысячу байтов. В состязании 2006 г. победил комплекс GpuTeraSort стоимостью 1200 долл., в котором параллельно с процессором Pentium IV в сортировке 590 млн. записей, выполненной за 644 с, была задействована графическая плата NVidia 7800 GT, а работала система под управлением Windows XP.

Продолжает набирать сторонников платформа RapidMind (www.rapidmind. net). Она позволяет разрабатывать сложные параллельные приложения на стандартной версии С++ и запускать их на кластерах из графических плат. Данный проект поддержан компанией Hewlett-Packard, которая протестировала платформу RapidMind в различных вычислительных тестах и выяснила, что использование графических чипов в задачах наподобие сортировки и быстрого преобразования Фурье (спектрального анализа) дает выигрыш от 3 до 30 крат. Так, решение на базе NVidia 7900 GTX обгоняет в подобных тестах двухъядерные системы Intel Xeon и AMD Opteron. Правда, создателям ПО для специализированных плат пока приходится изобретать хитроумные способы использования их специфических ресурсов - например, задействовать для хранения данных области ОЗУ, предназначенные для обработки графических текстур.

Файловые ускорители

Серия выступлений была посвящена ускорению доступа к файлам и БД, в которых сегодня хранятся петабайты информации. Файловая система Gfarm (datafarm.apgrid.org) создавалась как открытая альтернатива сетевой файловой системе NFS и представляет собой быстро функционирующий набор масштабных распределенных файловых ресурсов в grid-сети. Представители японского аэрокосмического агентства рассказали о высокопроизводительной файловой системе Shared Rapid File System, которая успешно работает с файлами терабайтного размера, обеспечивая скорость передачи данных порядка нескольких гигабит в секунду.

Компания Netezza (www.netezza.com) не очень известна на рынке СУБД, однако ее решения всегда отличались инновационностью. Новый продукт Netezza Performance Server, способный обрабатывать терабайты данных, показывает на параллельных архитектурах производительность, в десятки раз превышающую показатели популярных СУБД. Достигается это за счет использования аппаратных решений на базе ПЛИС, оптимизирующих взаимодействие с жестким диском, и интеллектуальных планировщиков и анализаторов, распараллеливающих запросы к базам.

О проблеме дисбаланса между производительностью процессоров и ОЗУ и отстающей от них производительностью накопителей на жестких дисках говорили многие выступающие. Эту проблему предложено решать в первую очередь с помощью кластерных хранилищ данных, которые сегодня только-только зарождаются. Так, компания YottaYotta (www.yottayotta. com) продолжает эксперименты с гетерогенной кластерной платформой DICE, пользователи которой работают в министерствах обороны и энергетики США и НАСА. Она реализует концепцию локально-глобальных данных: для обрабатывающего их пользователя они локальны (при обращении к ним не возникает задержек и не выполняется дополнительная передача файлов между машинами), но при этом одновременно отслеживается целостность и идентичность копий наборов данных по всей сети. Еще одна схожая по назначению система Isilon IQ (www. isilon.com) динамически подключается к кластеру, повышая скорость его ввода-вывода на сотни мегабайт в секунду, а при комбинации таких устройств удается добиться быстродействия жесткого диска порядка 1 Тб/с.

Оптимизировать процессы ввода-вывода можно и на алгоритмическом уровне. В современных объемных базах данных нередко хранятся результаты научных экспериментов, представленные в виде наборов значений с плавающей запятой. Технология адаптивного огрубления, придуманная пару лет назад для сжатия подобной информации, дала первые результаты: данные двух- и трехмерного моделирования сжимаются с помощью этих алгоритмов в 30-50 раз (в 2-3 раза лучше, нежели демонстрируют классические технологии сжатия).

Разное

Продолжается проект Blue Brain политехнического университета Лозанны, в рамках которого изучается работа неокортекса - области мозга, ответственной за память, мышление и понимание окружающего мира. Компьютер IBM eServer Blue Gene с производительностью 22,8 Тфлопс круглосуточно трудится над амбициозной задачей построения к 2015 г. модели человеческого мозга. Визуализация нейронных процессов осуществляется на графическом Linux-суперкомпьютере SGI Prism, объединяющем десятки чипов Intel Itanium 2 и четыре видеокарты и обеспечивающем разрешение 3820х2480 точек. Ближайшим достижением ученых станет модель части неокортекса крысы объемом 10 тыс. нейронов; на очереди модели мозга кошки и обезьяны. Специалисты оптимистично полагают, что достаточно смоделировать деятельность нейронной сети мозга на молекулярном уровне, чтобы получить разумную компьютерную программу.

Ближайшим достижением ученых станет модель части неокортекса крысы объемом 10 тыс. нейронов.

Немало работ было посвящено астрофизике. Представители калифорнийского университета Сан-Диего создали симулятор космоса, выполняющий моделирование процессов во Вселенной беспрецедентного масштаба и реализма. Для этого им пришлось обработать петабайты "сырых" данных. Продолжает совершенствоваться и один из старейших космосимуляторов ChaNGa (hpcc.astro.washington. edu/nchilada/bin/view/Code/ChaNGa) вашингтонского университета, который теперь масштабируется до тысячи процессоров. Для этого задействована библиотека Charm++ (charm.cs.uiuc.edu/research/ charm/), обеспечивающая параллельное программирование на языке С++. В ее последней версии, в частности, появилась поддержка процессоров IBM Cell - программы, написанные с помощью Charm++, можно будет запускать на этом процессоре без модификации кода.

"Компьютеры невероятно быстры, точны и тупы; люди очень медлительны, неточны и сообразительны; вместе они составляют невообразимую силу".

Докладчики изучали вопросы параллельной обработки сверхбольших изображений (полученных, например, от цифровых телескопов или электронных микроскопов). Приложения для подобной аппаратуры подчас функционируют в разрешении 4096х3072 точки с глубиной цветности 24 бита и частотой смены кадров не менее тридцати - однако такой режим подразумевает сетевой трафик быстродействием несколько гигабит в секунду и обслуживание масштабных хранилищ данных, а решить такую задачу можно лишь с помощью суперкомпьютеров.

Перспективы

Организаторы конференции в качестве девиза подобрали известное высказывание Альберта Эйнштейна: "Компьютеры невероятно быстры, точны и тупы; люди очень медлительны, неточны и сообразительны; вместе они составляют невообразимую силу". Увы, но подобная невообразимая сила нужна, похоже, далеко не всем - в нашей стране лишь этим летом, спустя два года после подачи соответствующей заявки Министерства образования и науки, появилось распоряжение премьер-министра Михаила Фрадкова о внесении предложений в совет министров Союзного государства России и Белоруссии о подготовке проекта программы "Разработка и использование программно-аппаратных средств grid-технологий и перспективных суперкомпьютерных вычислительных систем семейства СКИФ". С такой бюрократической цепочкой сложно разобраться и суперкомпьютеру. А вот власти США уже много лет ежегодно тратят около двух миллиардов долларов на поддержку высокопроизводительных вычислений. Наверняка для успешного развития соответствующей отрасли можно обойтись и меньшими суммами, но для этого вузы должны активизировать обучение использованию общедоступных пакетов для параллельных вычислений, коих насчитывается немало, а главное, надо массово учить принципам параллельного программирования - новой, потенциально очень емкой ниши индустрии софт-разработки, требующей высокой квалификации и выдающихся интеллектуальных способностей.

Версия для печати