Критические сбои компьютера совсем не обязательно являются следствием недочетов Microsoft, а могут быть результатом соударения с полупроводником заряженных микрочастиц из внешнего пространства.

Как считает Бхарат Бхува, профессор электроинженерии Университета Вандербильта, причиной многих неожиданных сбоев, требующих перезагрузки систем, могут быть заряженные частицы, генерируемые космическими лучами, которые приходят извне нашей Солнечной системы.

Достигнув Земли, лучи создают «каскады вторичных частиц, включающих высокоэнергетичные нейтроны, мюоны, пионы и альфа-частицы», которые настолько сильны и многочисленны, что могут инициировать сбои в работе транзисторов.

Бхува участвует в группе, получившей финансирование от крупных производителей процессоров и микросхем для изучения влияния излучения на электронные системы. В их последней работе исследуется эффект, производимый космическими лучами на 16-нм 3D-транзисторы FinFET текущего поколения.

Проект поддерживают такие компании, как Altera, ARM, AMD, Broadcom, Cisco Systems, Marvell, MediaTek, Renesas, Qualcomm, Synopsys и TSMC. Группа также проводила аналогичные исследования для технологий 20 и 28 нм.

«Изготовители полупроводниковых микросхем очень озабочены этой проблемой, так как она становится все серьезнее с уменьшением размеров транзисторов в компьютерных чипах и ростом мощностей наших цифровых систем, — сказал Бхува. — К тому же микроэлектронные схемы используются повсеместно, и наше общество все больше от них зависит».

Хотя известно, что для человека эти субатомные частицы не опасны, они могут вызывать микроуровневые нарушения в работе электронных гаджетов, например, инициировать инвертирование битов, когда в оперативной памяти 0 переключается на 1. Эти неразрушающие исправимые ошибки называют SEU (single-event upset — отказ из-за единичного события).

Установить прямую связь между ошибками, приводящими к зависаниям, и микрочастицами сложно, однако этот вопрос серьезно волнует NASA, которая использует систему, вычисляющую вероятность повреждающего воздействия космического излучения на оборудование, посылаемое в космос.

Один явный случай SEU, на который указывает Бхува, произошел в 2008 г. во время рейса австралийской авиакомпании Qantas из Сингапура в Перт, когда глюк в системе авиационной электроники вывел из строя автопилот, из-за чего самолет за 23 с опустился на 210 м. Еще один случай имел место в 2003 г. в Бельгии, когда переключение бита в электронной машине для голосования добавило одному из кандидатов 4096 лишних голосов.

Сегодня, замечает Бхува, вероятность, что частица с высокой энергией вызовет переключение бита, выросла, поскольку современные более компактные транзисторы требуют для представления логического бита меньший электрический заряд.

Хотя новая 3D-архитектура менее подвержена SEU, чем 2D-чипы, и вероятность сбоев на уровне чипа снизилась, Бхува отмечает, что рост общего числа транзисторов в новых электронных системах должен вызывать дальнейший рост вероятности SEU в расчете на одно устройство.

При изучении 16-нм чипов Бхува и его коллеги из Вандербильта перевезли интегральные микросхемы в Отделение облучения чипов и электроники (ICE House) Лос-Аламосской национальной лаборатории и подвергали их воздействию пучка нейтронов, чтобы узнать количество SEU, испытываемых чипами. Они измеряли отказы чипов в единицах FIT (failure in time).

Результаты исследований не были опубликованы в силу коммерческих ограничений, однако отмечается, что для большинства электронных компонентов FIT измеряются сотнями и тысячами.

«Наше исследование подтверждает, что это серьезная и растущая проблема, — сказал Бхува. — Это не сюрприз. Из наших исследований по эффектам облучения на электронные схемы, проводившихся для военных и космических приложений, мы предвидели, что те же эффекты возможны и в электронных системах, работающих в земных условиях».

Он также сказал, что в вопросах чувствительности к частицам высоких энергий отстает только сектор бытовой электроники. В сфере авиации, медицинского оборудования, ИТ, транспорта, связи, финансовых организаций и энергетики уже принимаются соответствующие меры.

Для экранирования электроники от этих частиц потребовалась бы трехметровая толща бетона. Однако NASA, отмечает Бхува, решает проблему использованием утроенных процессоров, чтобы они могли подтверждать результаты друг друга.

«Вероятность, что в двух микросхемах SEU произойдут одновременно, исчезающее мала. Поэтому, если две микросхемы дают одинаковый результат, он должен быть правильным», — сказал Бхува.

Версия для печати (без изображений)