Процессор Nvidia Tegra K1 существует в двух вариантах. Первый вариант — это ранее выпущенная 32-разрядная модель с четырьмя ядрами Cortex-A15, работающими на тактовой частоте до 2,3 ГГц. Кэш-память уровня L1 для хранения команд и данных имеет размер 32 Кб, кэш-память уровня L2 — 2 Мб. В настоящее время эта модель доступна для производителей. Его можно встретить, например, в планшетах Nvidia Shield и Xiaomi MiPad, а также в недавно анонсированном хромбуке Acer Chromeboook 13.

Второй вариант Tegra K1 пока только готовится к выпуску. В нем использованы два вычислительных ядра с архитектурой Denver, которые способны выполнять 64-разрядные инструкции ARMv8 с тактовой частотой до 2,5 ГГц. Кэш-память процессора представлена уровнями L1 (128 Кб для хранения команд и 64 Кб для хранения данных) и L2 (2 Мб).

Оба варианта K1 работают с 192-ядерным (CUDA) графическим процессором с архитектурой Kepler, а также используют одинаковый разъемный блок. Это делает взаимозаменяемыми 32- и 64-разрядные модели и позволяет использовать их для совместной (в том числе перекрестной) установки в многопроцессорных системах.

Особенности Denver-процессора Tegra K1

Как сообщил на конференции Hot Chips Дарелл Боггс, руководитель процессорного подразделения Nvidia, основной задачей проекта Denver считалось создание таких моделей мобильных процессоров, чтобы их производительность была соразмерной чипам, применяемым для настольных систем. Параллельно требовалось обеспечить совместимость разрабатываемых процессоров многочисленным программным приложениям и аппаратным конфигурациям, использующих архитектуру ARM.

Чтобы реализовать намеченную задачу, процессорное ядро Denver использует суперскалярную микроархитектуру, благодаря которой оно способно выполнять до семи операций за один такт. Это значительно превышает характеристики ядер A15, которые способны выполнять по три инструкции за такт.

Архитектура Denver предусматривает применение «агрессивного» алгоритма предварительной выборки данных — общепринятой методики, которая заключается в том, чтобы с помощью специального механизма предсказаний производить отбор наиболее вероятных для последующих вычислений данных и переносить их заранее в быструю память для ускорения последующего доступа.

Nvidia применила в своем процессоре систему динамической оптимизации кода (Dynamic Code Optimization) — ради повышения производительности в особо нагруженных режимах. Смысл оптимизации состоит в следующем. Процессор отбирает наиболее часто используемый системный программный ARM-код, преобразует его в оптимизированный микрокод и помещает в кэш-область объемом 128 Мб, которая специально выделяется в составе основной памяти.

Благодаря такой предварительной подготовке Nvidia удалось поднять производительность ядра без дополнительного роста его энергопотребления. Компания обещает двухкратный рост производительности вычислений на аппаратном уровне.

Nvidia является далеко не первой компанией, которая пробует реализовать модель вычислений, связанную с предварительным преобразованием бинарных кодов к оптимизированному виду, ради повышения производительности. Однако другим вендорам до сих пор так и не удалось добиться намеченного роста. Наиболее яркий пример — Transmeta, которая пыталась обойти Intel, реализовав аналогичную технологию в мобильных процессорах Crusoe. По словам Боггса, Nvidia удалось достичь успеха прежде всего потому, что «реальная эффективность решения зависит от особенностей выбранной реализации».

Еще одной отличительной особенностью Denver-процессора Tegra K1 является отсутствие в решении ядра-компаньона с пониженной мощностью, на который производится передача обработки при переходе процессора в экономичный режим работы или для выполнения фоновых вычислений.

Вместо стандартного для процессоров Tegra решения Nvidia добавила «энергоэффективный» режим работы ядра. Его назначение состоит в том, чтобы достичь энергоэкономии за счет снижения рабочих уровней напряжения. Новая система может очень быстро переходить в этот режим CC4 и возвращаться обратно, используя для этого технологию clock gating (запрет подачи тактовых сигналов на неиспользуемые цепи электрической схемы). Однако для перехода на полный режим энергосбережения Nvidia применяет технологию power gating (запрет подачи питания на неиспользуемые цепи электрической схемы). В этом случае переход в режим экономии занимает больше времени.

Сравнительное тестирование

На конференции Hot Chips компания Nvidia показала результаты сравнительного тестирования Denver-процессора Tegra K1 с другими топовыми чипами: Qualcomm Snapdragon (MSM8974), Apple A7 Cyclone, Atom Bay Trail SOC (Celeron N2910) и Celeron 2955U на базе ядер Haswell (на его базе построены большинство моделей хромбуков). Тестирование проводилось по девяти различным методикам, в том числе AnTuTu 4, SpecInt 2K и др.

Согласно данным Nvidia, Denver-процессор Tegra K1 значительно превзошел результаты всех моделей ARM-процессоров и Bay Trail. Единственный процессор, который сумел показал близкие результаты — 1,4- ГГц двухъядерный процессор Haswell.

Производственные планы

Промышленная версия процессора Tegra K1 Denver должна появиться уже в этом году.

Ранее Nvidia планировала выпустить Denver-процессоры также для серверных применений и высокопроизводительных вычислений, однако в июне этого года было объявлено, что компания ограничится выпуском только мобильных версий.


Версия для печати (без изображений)