КОМПОНЕНТЫ

При оценке реальной надежности жестких дисков в вычислительных центрах часто высказывается мнение, что производители дисковых накопителей имеют склонность завышать показатель MTBF (Mean Time Between Failures - среднее время наработки на отказ). Вот только кто верит их данным?

Технические спецификации жестких дисков всегда содержали информацию о надежности, оговаривая, сколько часов может проработать каждое из этих устройств. Такой показатель называется "средним временем наработки на отказ", или MTBF, но иногда используется более короткий термин "наработка на отказ". Разницы между ними, впрочем, особой нет, разве что в первом случае исходят из того, что диск можно отремонтировать, а во втором - что его нужно заменить. На сегодняшний день для "корпоративных" жестких дисков данный показатель составляет порядка 1 млн. ч, а для некоторых - даже 1,5 млн.

MTBF - параметр чисто статистический, рассчитанный путем экстраполяции данных

за сравнительно короткий промежуток времени.

Такие цифры просто не могут не впечатлять! В конце концов, в году всего 8760 ч, а значит, один миллион их соответствует 114 годам непрерывной работы. У некоторых, правда, подобные цифры вызовут недоумение, ведь жестким дискам всего-то от роду полсотни лет... Да и то если считать с момента, как IBM выпустила гигантский 350 Disk Storage Unit для своего компьютера RAMAC. Ну как тут не почесать в затылке?

Однако следует иметь в виду, что MTBF - параметр чисто статистический, рассчитанный путем экстраполяции данных за сравнительно короткий промежуток времени. И приведенные выше показатели свидетельствуют об очень высокой надежности жестких дисков: вероятность отказа любого из них в течение года не превышает 1%. Да торжествует хранение данных!

Вот только восторг перед MTBF несколько бледнеет, когда знакомишься с результатами последних исследований в данной области, представленными на конференции FAST’07. Это мероприятие, посвященное компьютерным файлам и их хранению, организовала и недавно провела в калифорнийском Сан-Хосе американская ассоциация передовых вычислительных систем USENIX.

Приз за лучший документ здесь получила работа Бьянки Шредер и Гарта Гибсона из питсбургского университета Карнеги - Меллона под названием "Disk Failures in the Real World: What Does an MTBF of 1,000,000 Hours Mean to You?" ("Отказы жестких дисков в реальном мире: что значит для вас наработка в миллион часов?").

Исследователи проанализировали показатели огромного количества жестких дисков, используемых в центрах массового хранения данных, в том числе на суперкомпьютерах и Web-серверах. И полученные результаты дали основания полагать, что общепринятое представление о надежности дисков вовсе не соответствует истине. Оказалось, скажем, что ежегодно приходится заменять не 1% жестких дисков, как следует из MTBF, а от 2 до 4%. Более того, в некоторых центрах эта цифра доходит даже до 13%. Приехали, что называется!

Противоречат выводы исследования и широко распространенному мнению, будто частота отказов дисков соответствует так называемой "кривой надежности". Из этой теории следует, что проблемы с любым электронным устройством, включая и жесткие диски, активно возникают в самом начале эксплуатации (Шредер и Гибсон назвали подобное явление "эффектом детской смертности"), затем их частота снижается и начинает снова нарастать через определенное время вследствие старения компонентов. Вот только практика показала иное. Согласно исследованию отказы дисков начинаются вовсе не через 5-10 лет эксплуатации, а уже в первые ее годы, после чего их уровень непрерывно растет.

Причем исследователи отметили "минимальные различия в частоте замены жестких дисков с интерфейсами SCSI, Fibre Channel и SATA". А это, по их мнению, "может указывать на то, что внешние факторы, например условия эксплуатации, оказывают на надежность дисков большее влияние, чем внутренняя конфигурация устройств".

Такие выводы, несомненно, вызовут бурю негодования в маркетинговых подразделениях производителей систем хранения и жестких дисков. Ведь корпоративные устройства оснащаются лучшими по сравнению с SATA механизмами, шпинделями с повышенной скоростью и более надежными компонентами (потому и стоят дороже). Если же уровень отказов определяется не этим, производителям есть над чем задуматься.

На той же самой конференции FAST еще один доклад на сходную тему прочитали инженеры Google. Их работа носит название "Failure Trends in a Large Disk Drive Population" ("Тенденции отказов в средах с большим количеством дисков") и уже опубликована в формате PDF по адресу: http://labs.google.com/papers/disk_failures.pdf. Здесь основное внимание обращено на то, в какой степени созданные на базе технологии SMART (Self-Monitoring, Analysis and Reporting Technolo-gy - технология самопроверки, анализа и отчетности) микропрограммы жестких дисков способны прогнозировать выход такого оборудования из строя.

Технология SMART предусматривает анализ целого ряда механических и электрических показателей работы жесткого диска - что-то вроде системы предупреждения о нехватке масла в вашем автомобиле. Последняя постоянно следит за уровнем масла, и когда он опускается ниже заранее заданного порога, подает сигнал предупреждения, помогающий водителю избежать катастрофических для двигателя последствий.

Вот только специалисты Google - Эдуардо Пинейро, Вольф-Дитрих Вебер и Луис Андре Барросо - выяснили, что повышение температуры диска и потребляемой мощности вовсе не обязательно свидетельствует о намечающемся отказе. А SMART именно так и воспринимает эти симптомы.

С другой стороны, жесткие диски, у которых SMART начинает отмечать ошибки сканирования и переноса данных, выходят из строя на протяжении ближайшей пары месяцев в 39 раз чаще, чем диски без таких ошибок. Следовательно, "первые ошибки" можно считать надежным признаком приближающегося отказа.

Тем не менее, как считают исследователи, технология SMART со своей задачей справляется не слишком-то успешно. Вот что они пишут: "Несмотря на сильную корреляцию с количеством ошибок сканирования и переноса данных, сама по себе модель прогнозирования сбоев на основе параметров SMART страдает невысокой точностью. Подтверждением здесь может служить то, что значительная часть вышедших из строя дисков не подавала сигналов ни о каких ошибках".

Множество вопросов относительно надежности дисков задается компаниям-производителям и на блогах. На сайте StorageMojo, скажем, опубликовано довольно интересное открытое письмо Робина Харриса, призывающего разработчиков жестких дисков признать несостоятельность параметра MTBF. Описанные в нем случаи ставят под сомнение заявленный высокий уровень надежности некоторых массивов RAID. Вот что мы прочли в документе: "Многие читатели этого письма, думаю, согласятся со мной в том, что компании, которым ситуация известна лучше, чем кому бы то ни было (по крайней мере должна быть известна лучше), либо игнорируют неудобные для них факты, либо искажают их смысл. Взять, скажем, дискуссию относительно массива RAID-DP. Аргументация здесь основана на частоте необратимых ошибок считывания данных и не учитывает, например, того, что вероятность одновременного отказа сразу двух жестких дисков массива может оказаться больше предполагаемой. Зная, что в реальном мире диски выходят из строя в несколько раз чаще, чем обещают их производители, я поневоле ставлю под сомнение и расчетную вероятность битовых ошибок".

Дыма без огня, конечно, не бывает, однако здесь затронута очень сложная проблема. Невозможно найти два сайта, сервера или две среды, где условия работы жестких дисков были бы совершенно идентичными. Не говоря уже о том, что реальная эксплуатация существенно отличается от тестовых процедур изготовителя. А статистическая экстраполяция MTBF только умножает эти различия.

Вывод из представленных на конференции FAST исследований может быть только один: как бы высока ни была средняя наработка на отказ, в ИТ-бюджете необходимо обязательно предусматривать средства на замену жестких дисков. Это, правда, может урезать расходы на развертывание новых систем хранения, которые гораздо больше по душе менеджерам по информатизации и производителям таких устройств.

Здесь, думаю, уместно привести высказывание насчет MTBF, которое прозвучало на встрече группы пользователей сетевых хранилищ в Сан-Франциско. Один из выступивших здесь реселлеров прямо призвал производителей "не публиковать чушь".

Следовать этому призыву маркетинговые подразделения наверняка не станут, так что нам остается только одно: воспринимать публикуемые данные о средней наработке на отказ более реалистично.

А что вы думаете по этому поводу? MTBF - это наглая ложь? А может, вы видите в этом показателе какой-то смысл? Поделитесь своими мыслями по адресу: editorial@pcweek.ru.