ТЕХНИЧЕСКИЙ АНАЛИЗ

Новые кристаллы вынуждают создателей софта и “железа” искать пути для освоения возросших вычислительных возможностей

На заре эры настольных вычислений универсальные микропроцессоры открыли путь к созданию недорогих однопользовательских компьютеров. В ту пору почти каждый шаг по увеличению быстродействия центрального процессора (ЦП) или расширению его адресного пространства давал существенный прирост видимой и фактической производительности построенных на его основе систем, а ежегодные анонсы новых кристаллов на конференции Microprocessor Forum давали индустрии ясное представление о том, чем будет инициирована очередная волна продаж ПК и серверов.

Роберт Юнг (Intel): “Нельзя одеть всех с одного плеча”

В нынешнем году во время проведения очередного микропроцессорного форума в г. Сан-Хосе (шт. Калифорния) его основатель Майкл Слейтер с сожалением констатировал, что два десятилетия прогресса по закону Мура привели индустрию к такому состоянию, когда вычислительная мощность процессоров превосходит реальные потребности в них большинства пользователей ПК. “Наращивание вычислительной мощи - не самая большая проблема, - отметил Слейтер, комментируя итоги первого дня форума. - Хотя более быстрые процессоры позволяют раскрыть возможности остальных компонентов, компьютерная наука, которая должна упростить их использование, на годы отстает от прогресса в области аппаратных средств”.

Поэтому теперь, предупредил Слейтер, на передовые продукты не будет массового спроса, по крайней мере такого, какой сопутствовал эпохальным анонсам процессоров Intel семейств 386, 486 и Pentium. Разработчикам микрокристаллов, считает он, предстоит сфокусироваться на решениях, а не на дальнейшем повышении производительности.

В своих комментариях Слейтер высказал мысль о переходе инициативы из рук поставщиков технологий в руки покупателей, которые станут диктовать направления и темпы будущей эволюции аппаратуры. Альтернативные подходы к удовлетворению запросов корпоративных пользователей представили на форуме ведущие производители микропроцессоров - компании Intel, Advanced Micro Devices, Motorola и Centaur Technology (дочернее предприятие фирмы Via Technologies), каждая из которых держит под прицелом свою часть рынка.

Intel, названная Слейтером производственной машиной на базе мощного капитала, привезла в Сан-Хосе целый ряд проработанных предложений. Компания обозначила новые ориентиры в конструировании мобильной аппаратуры, сформулировав задачу достижения максимальной производительности при заданном уровне энергопотребления. Это означает ее отказ от прежнего подхода к созданию мобильных процессоров, в сущности представлявших собой следствие некоторого усовершенствования технологического процесса изготовления все более мощных кристаллов для ПК и серверов.

Как оказалось, выдвижение показателя энергопотребления в качестве главного критерия оптимизации продукта выявляет интересные возможности. Например, известно, что на выходе элемента, выполняющего логическую операцию AND, образуется сигнал низкого уровня (логический 0), если такой же сигнал подан хотя бы на один из входов. При традиционном подходе к разработке схемы никто не задумывается о том, чтобы в этой ситуации и на другом входе элемента присутствовал логический 0, поскольку результат операции от этого не меняется. Между тем, как показал в своем докладе Мули Эден, главный управляющий центра разработки Intel в Израиле, в последнем случае суммарный ток утечки снижается в пять раз. Учет этого эффекта при проектировании кэш-памяти второго уровня для семейства чипов Intel Banias позволил снизить их энергопотребление более чем на 1 Вт. Это говорит о наличии неиспользованных резервов для продления времени автономного питания переносных ПК без ущерба их производительности.

Кристаллы, проектируемые Intel в соответствии с новой концепцией, будут иметь, подобно Pentium III-M и другим популярным мобильным процессорам, используемым в современных мощных ноутбуках, систему команд x86. Существует, однако, и другой подход к решению проблемы энергопотребления. Например, в процессоре Crusoe корпорации Transmeta оно снижено за счет радикального упрощения базовых логических схем, ориентированных на выполнение собственного набора VLIW-команд (Very Long Instruction Word - сверхдлинное командное слово). Требуемой рынком совместимости с x86 Transmeta добилась с помощью приложения Code Morphing, загружаемого во время запуска системы и динамически транслирующего традиционный программный код в инструкции процессора Crusoe. Остальная программная база, включая BIOS и операционную систему, работает поверх уровня “морфинга”.

ПО фирмы Transmeta - нечто большее, чем просто транслятор, так как оно разработано с целью достижения компромисса между скоростью, расходованием внутрипроцессорных ресурсов и потреблением энергии. Code Morphing идентифицирует редко используемые команды, о которых можно забыть сразу после трансляции, но в то же время кэширует в оттранслированном виде часто исполняемые кодовые последовательности.

Разработчикам приложений, предполагающих выполнение повторяющихся операций (обработка изображений, преобразование данных различного вида и т. д.) и высокую загрузку процессора, Transmeta может предложить отличное по свой форме и содержанию решение. Тот же подход оказался эффективным во многих серверных приложениях, и хотя изначально фирма создавала свои продукты для портативных устройств, они, как ни странно, нашли применение в ряде моделей сверхплотных blade-серверов, для которых чрезвычайно острой является проблема охлаждения.

Однако, как заявил Роберт Юнг, главный технический директор Intel по корпоративным процессорам, “нельзя всех одеть с одного плеча”. Поэтому, пересматривая свой подход к мобильным процессорам, Intel одновременно совершенствует архитектуру семейства IA-64 с абсолютно иной системой команд, воплощаемой в Itanium 2 и следующих за ним процессорах.

В кристаллах IA-64 все поражает своими размерами: 328 внутренних запоминающих регистров; 50-разрядное физическое адресное пространство (поддерживающее петабайтный объем ОЗУ); огромная кэш-память второго уровня (по прогнозу Юнга, к концу десятилетия ее объем достигнет 10 Мб). Уже в текущей версии ядра Itanium под названием McKinley на кэш-память приходится 78% от общего числа транзисторов, а в версии Madison ее доля вырастет до 88%. Этот факт свидетельствует о том, что доминирующей ИТ-проблемой становится доставка данных к месту их обработки и обратно, а не ускорение самих вычислений, что вполне соответствует общей тенденции в сфере проектирования корпоративных ИТ-систем, проявляющейся в стремлении ИТ-архитекторов при создании различных решений (например, Web-сервисов) помещать точку вычислений как можно ближе к источнику исходных данных и пользовательских запросов.

Еще одну точку зрения озвучил завсегдатай форума президент Centaur Technology Гленн Хенри. “Людям нужна архитектура x86, - заявил он в частной беседе представителям eWeek Labs. - У нас развелось множество инструментов, подходов и всевозможной периферии, но если они поддерживают x86, с проблемами можно справиться”. В данный момент Хенри видит свою цель в том, чтобы создавать новые продукты, нужные сотням миллионов людей. Под такими продуктами он понимает, в частности, телевизионные приставки без вентиляторов охлаждения и ПК ценой не более нескольких сот долларов, вроде устройств Microtel Computer Systems с процессорами Centaur и ОС Lindows, которые можно приобрести в супермаркетах WalMart всего лишь за $200.

“Дело не в том, что Pentium 4 чем-то плох, - подчеркнул Хенри. - Просто сфера его применения ограничена. Компоненты Intel не рассчитаны на новые приложения”.

В подтверждение того, что уже сегодня можно выпускать компактные, но вполне функциональные ПК, не требующие вентиляторов, Хенри продемонстрировал eWeek Labs модуль площадью в 17 см^2 - реально существующую плату, которая продается в магазинах Fry’s Electronics за $130. Она сконструирована на базе процессора Centaur и потребляет около 8 Вт, хотя поддерживает все известные виды портов. “Мы хотим, чтобы люди могли использовать этот модуль для любых целей”, - пояснил нам Хенри.

Выступая перед участниками форума, он заявил: “Невысокая цена важнее мегагерцев. Наши продукты недороги, потребляют мало энергии и обеспечивают достаточное быстродействие”.

64 разряда в настольных ПК

Мнение Хенри о приоритете системы команд x86 полностью разделяет AMD, представившая на форуме первые данные о производительности своих x86-совместимых кристаллов нового поколения, реализующих 64-разрядное расширение 32-разрядного набора команд.

Фред Уэбер (AMD): “64 разряда? Почему бы нет”

Вице-президент и технический директор AMD Фред Уэбер (тоже постоянный участник форума) напрямую возразил Юнгу (Intel), заявив, что верит в возможность одеть всех с одного плеча, но не в смысле предложения одинаковых процессоров, а в смысле использования единого набора команд. Помянув недобрым словом многолетние схоластические споры о преимуществах и недостатках архитектур RISC и CISC, Уэбер заявил, что выбор системы команд должен диктоваться прежде всего стремлением обеспечить совместимость устройств, а не производительность. Указав на пачку модулей ОЗУ, Уэбер спросил: “Если здесь умещается 4 Гб памяти, почему не перевести настольные ПК на 64-разрядную платформу?”. При этом добавил, что 64-разрядное адресное пространство даст выигрыш даже при исполнении 32-разрядных приложений.

На 32-разрядной платформе значительная часть единого четырехгигабайтного адресного пространства используется под нужды ОС, а ведь его можно целиком отдать приложениям. “Прежде ограниченные объемом памяти 32-разрядные программы в предусмотренном нами режиме совместимости получат в свое распоряжение все 4 Гб, и это сразу даст прибавку в скорости их выполнения, притом без переделки под 64-разрядную платформу”, - пояснил Уэбер.

Точно так же, как с распространением 386-го семейства настольные приложения выиграли благодаря выходу за пределы свойственного Intel 286 и более ранним процессорам 1 Мб адресного пространства, нынешние корпоративные приложения, работающие с огромными базами данных или мультимедиа, вполне возможно, быстро освоят новые ресурсы ОЗУ, о которых говорит Уэбер (конечно, при условии, что новые платформы и поддерживающие их средства будут недороги и просты в использовании).

Эта полнофункциональная системная плата

площадью в 17 см^2 работает на ЦП Centaur

Значительная часть презентации Уэбера была посвящена проблемам производительности открытого протокола HyperTransort (его предполагается реализовать в будущих кристаллах AMD) и особенно его масштабируемости при создании многопроцессорных систем. По подсчетам, в четырехпроцессорной конфигурации каждое процессорное ядро будет связано с локальной памятью каналом с пропускной способностью до 3,9 Гбит/с, а с общей памятью все четыре ядра смогут обмениваться данными на скорости 2,8 Гбит/с. При том быстродействии межпроцессорных каналов, какое обеспечат 64-разрядные кристаллы Hammer, четырехпроцессорные системы, по мнению Уэбера, станут нормой нашей жизни.

Участники предыдущих конференций Microprocessor Forum наверняка заметили сходство доклада Уэбера с презентацией IBM ее процессора Power4, также соданного с целью достижения высокой пропускной способности шины данных при работе с видео и другими приложениями, использующими большие объемы информации. Этот вопрос волнует и Intel (по словам Юнга, компания намерена реализовать в Itanium 2 поддержку конфигураций, содержащих до 512 процессоров), и потенциальных покупателей, безусловно, заинтересованных в совершенствовании не только самих процессоров, но и связующих их каналов.

Четвертым и притом весьма способным игроком на микропроцессорной арене является Motorola, предложившая ядро ColdFire для синтеза на его основе разнообразных процессорных конфигураций, которые затем встраиваются в стандартные и заказные продукты.

Меняющийся ландшафт рынка микропроцессоров

На форуме обсуждалась будущая пятая версия ColdFire с суперскалярной архитектурой. По сравнению с предыдущей она позволит в среднем на треть увеличить число операций, выполняемых за один такт. Ядро ColdFire унаследовало систему команд микропроцессоров 68000, по обилию средств и приемов программирования уступающую разве что x86, но имеет более совершенную, нежели прежде, архитектуру. Инструкция ColdFire может состоять из 16, 32 или 48 разрядов, однако это вовсе не ведет к тем сложностям, на которые указывали сторонники RISC-систем с фиксированной длиной команд. По словам главного идеолога ColdFire Джо Серселло, на ранней стадии декодирования программного кода с помощью аппаратно-резидентной таблицы формируется вектор операций, быстро выявляющий взаимозависимость команд, которая может препятствовать их одновременному выполнению.

Архитектура ColdFire полностью исключает необходимость ручной корректировки реализуемой структуры под разные технологии изготовления полупроводниковых микросхем, позволяя конструкторам быстро создавать и предлагать рынку узкоспециализированные решения. “Вам нужно устройство управления памятью? При генерации схемы выберите соответствующую опцию, и оно будет синтезировано. Нужен блок для операций с плавающей запятой? Поступайте так же”, - пояснил Серселло.

В Motorola уже используют эти возможности при разработке стандартных компонентов, а также рекомендуют их для воплощения заказных решений. С ростом популярности карманных и сетевых устройств как инструментов сопровождения производственных процессов и управления взаимопоставками подобные заказные решения будут играть все большую роль для бизнеса.

Конкуренция предложений

Хотя на форуме прошло множество других презентаций, мы надеемся, что наш сравнительный обзор предложений четырех ведущих производителей дает неплохое представление о конкурентном ландшафте, открывающемся перед корпоративными пользователями.

Спектр завтрашних настольных систем будет простираться от почти чрезмерной мощи Itanium 2 (в сочетании с риском перехода на совершенно новую программную базу) до прагматизма достаточно быстрых, компактных и не нуждающихся в охлаждении систем Via/Centaur. Привлекательную золотую середину составят x86-совместимые 64-разрядные продукты AMD.

Накопленный опыт создания архитектур на базе систем команд x86 и 6800 пригодится при разработке встраиваемых заказных кристаллов с низким потреблением энергии, которые могут состоять из стандартных компонентов или кроиться под особые требования заказчика.

Синтез аппаратных конфигураций становится быстро решаемой задачей, и это позволит переключить основное внимание конструкторов систем на создание ПО. “Обычно у наших заказчиков, - отметил Серселло, - на каждого аппаратного разработчика приходится около десяти разработчиков микропрограмм”. Эта пропорция должна послужить ИТ-компаниям сигналом, свидетельствующим о том, что достичь конкурентного преимущества можно скорее через наделение продуктов уникальными интеллектуальными свойствами, реализуемыми на любой из доступных платформ, чем через подгонку инновационных решений под выпускаемые кристаллы.

С научным редактором Питером Коффи можно связаться по адресу: peter_coffee@ziffdavis.com.

Выбирая ЦП

Процессоры для настольных и мобильных ПК

- Высокая тактовая частота влечет за собой не столько выгоды, сколько затраты: вместе с ней растет стоимость всех остальных компонентов системы.

- Главным критерием выбора являются результаты эталонных тестов, основанных на исполнении набора приложений.

- Компактные и бесшумные системы освобождают стол, снижают уровень шумов на рабочем месте и уменьшают расходы на кондиционирование воздуха. В будущем (примерно к концу следующего года) наиболее популярными в корпоративной среде будут малогабаритные настольные системы и ноутбуки с развитой функциональностью.

Процессоры для серверов

- Главной технической проблемой становится не быстродействие процессора, а пропускная способность межсоединений. IBM и AMD занимаются этой проблемой напрямую, а Intel пытается решить ее, наращивая кэш-память.

- Поинтересуйтесь масштабируемостью решений для многопроцессорных систем: есть ли перспектива увеличения в них числа процессоров до четырех и более?

- Конструкторы чипов ищут пути эффективного использования растущего числа внутрикристальных транзисторов. Характерной особенностью архитектуры серверов нового поколения станут ускорители приложений, предполагающих большой объем вычислений (например, шифрование данных).

Пропускная способность обработки данных: повышение значения памяти

Бывает, что в корне с виду не решаемой задачи скрывается некорректное допущение. Нечто подобное можно обнаружить при исследовании проблемы обеспечения необходимой пропускной способности внешней шины данных процессора: за постулат принято утверждение, что центром системы является так называемый центральный процессор, а память служит для него периферией. А что будет, если ей отвести центральное место, разместив вычислительные средства по краям?

Ответ на этот вопрос дает устройство Yukon фирмы Micron Technology, которое из идеи скоро воплотится в опытный образец. Оно не заменяет ЦП, а выполняет роль дополнительного системного ресурса в виде распределенных вычислительных блоков, способных использовать преимущества 200 Гбит/с внутренней шины микросхем синхронного динамического ОЗУ.

Некоторые приложения, связанные, например, с обработкой изображений или данных (Data Mining), требуют выполнения небольшого числа операций с гигантскими объемами данных. В этом случае целесообразно использовать простые процессорные элементы, которые максимально приближены к данным и могут принимать команды от более универсального вычислительного устройства, а затем выполнять их самостоятельно, не тратя времени на пересылку данных между микросхемами.

Прототип Yukon с тактовой частотой 200 МГц обеспечит пиковую производительность свыше 50 млрд. восьмиразрядных операций или 200 млн. операций удвоенной точности с плавающей запятой в секунду. Об этом сообщил в своей презентации на конференции Microprocessor Forum в Сан-Хосе (шт. Калифорния) Грэхем Хирш, главный идеолог программы Active Memory компании Micron.

“Проблема не в памяти, а в шине, - утверждает Хирш. - Нужно извлечь данные, переслать их и разместить в нужном месте - вот в чем сложность. Внутри же микросхемы ОЗУ пропускная способность шины очень велика. И мы предлагаем воспользоваться этим”.

Версия для печати