Издавна считалось, что есть два класса доступности систем хранения данных — операторский и корпоративный. Наивысшим всегда считался операторский — т. н. «пять девяток» (five nines), то есть 99,999% рабочего времени такая система доступна и выполняет возложенные на неё функции.

Нормальным показателем доступности корпоративного класса в прошлом считались «четыре девятки» (99,99%). На первый взгляд, разница небольшая, но в реальной работе эти недостающие 0,009% могли нарушить непрерывность бизнес-процесса в самый неподходящий момент: например, когда банк проводит транзакции или при потоковой передаче данных дорогого научного эксперимента, который готовился долгие годы, и пр.

Проблема традиционно решалась за счёт многократного резервирования модулей системы хранения, что выливалась в существенные затраты. Вместо одного требуемого объёма СХД предприятию нужно было закупать три, или даже больше, и использовать изощренные алгоритмы повышения надёжности.

В 2014 г. компания Nimble (с 2017 года входит в состав Hewlett Packard Enterprise) сообщила о настоящем прорыве — достижении доступности системы свыше 99,999%. А через два года было объявлено о достигнутом показателе в 99,999928%. При такой доступности время простоя системы за год составляет менее 28 секунд.

Правда и операторские системы хранения, такие как только что объявленная HPE XP8, уже сильно ушли вперед — на них производитель говорит уже 14 «девятках» и многолетней работе без единого простоя. Однако тренд на повышение надежности корпоративных систем очевиден.

Скептики могут сказать, что эти цифры получены в лабораторных условиях, а в реальности процент доступности будет гораздо ниже. Однако эти показатели были получены от реально измеренных значений, а не при помощи теоретических выкладок. И они подтверждены многолетней эксплуатацией и отзывами заказчиков.

Измерения проводились на всем парке установленного оборудования СХД. При этом были учтены все модели и версии операционной системы. И, что более интересно, высокий уровень доступности был достигнут для всех систем в целом, включая и те, которые находятся в эксплуатации более шести лет. А не только на новейших системах и версиях.

Такой высокий показатель — стандарт для всех продуктов НРЕ без каких-либо специальных условий или услуг, достигнутый на всех устройствах без каких-либо дополнительных платежей, контрактов на особые услуги и конфигурации.

Как же были достигнуты такие фантастические цифры, да ещё на таких привлекательных условиях (о которых ниже)? Давайте смотреть, как это было сделано.

Как это было сделано

Nimble начала с главного — с архитектуры платформы СХД. Наличие двух контроллеров исключает т. н. «единую точку отказа» (single point of failure), т. е. точку в системе, отказ которой приводит к отказу целой системы. Причем такое резервирование было заложено не только в аппаратной, но и в программной архитектуре, которая предусматривает не менее чем трёхуровневый контроль чётности RAID и комплексную проверку целостности данных.

При проектировании многоуровневых систем невозможно учесть все аспекты, поэтому фактор непредсказуемости всё же присутствует. Однако Nimble использует платформу прогнозной аналитики, которая занимается изучением работы развёрнутого оборудования и сбором данных статистки. На основе этих данных улучшаются процедуры поддержки.

Все возникающие отказы и простои устройств автоматически выявляются, категорируются, и данные о них сохраняются в архиве. Доступность всего парка развёрнутого оборудования контролируется с учётом версий ПО, моделей оборудования и пр. Эти данные анализируются с помощью алгоритмов искусственного интеллекта, при этом выясняются причины всех сбоев. Это даёт возможность устранить отказ до того, как о нём узнает заказчик, или, более того, предотвратить возникновение такого отказа.

Фиксируются абсолютно все проблемы и неисправности, даже те, которые возникают по вине сторонних поставщиков или в случае непредвиденных факторов, например, отключения электропитания, или когда заказчик отключает массив, чтобы перенести его в другое место.

Система прогнозной аналитики InfoSight

Спектр ИТ-приложений очень разнообразен, инфраструктуры и конфигурации также могут быть самые разные, и проблемы недоступности системы также могут происходить от различных причин. Таким образом, локальные средства повышения доступности и надёжности могут не давать нужного эффекта. Для устранения этой давно назревшей проблемы компания Nimble создала уникальные средства аналитики и уже на этапе разработки внедряет диагностические сенсоры в каждый модуль программного кода. Эти сенсоры в режиме реального времени предоставляют данные для аналитической платформы InfoSight. Каждая СХД содержит тысячи таких сенсоров, с которых собираются и обрабатываются миллионы единиц данных для прогнозной аналитики.

InfoSight использует методы обработки и анализа данных для выявления, прогнозирования и предотвращения проблем на всех уровнях инфраструктуры. При выявлении проблем в парке оборудования формируются сигнатуры состояний. InfoSight сопоставляет эти сигнатуры для всех установленных систем. В случае обнаружения заданной сигнатуры, InfoSight, используя алгоритм машинного обучения, прогнозирует возможность проблемы до её возникновения и заблаговременно устраняет её, даже если проблема возникает за пределами СХД. Поэтому заказчик может вообще не получать никаких предупреждений, поскольку при таком методе нормализуется работа всего парка установленного оборудования. Постоянный анализ данных со всей базы оборудования позволяет предотвратить подавляющую часть отказов.

Даже если проблема возникает за пределами системы хранения, InfoSight может устранять до 54% таких проблем. С его помощью уровень доступности СХД уже превысил 99,9999%.

Основополагающий принцип InfoSight: если обнаружена проблема, ни один из заказчиков не должен столкнуться с этой проблемой в будущем, даже если её источник находится за пределами СХД.

Алгоритм работы InfoSight

Алгоритм работы InfoSight

1. Анализ данных. Постоянный мониторинг миллионов датчиков в системах более 10 тыс. клиентов.

2. Создание обращения. InfoSight прогнозирует возможную проблему или создаётся обращение. При этом 90% обращений создаются автоматически, а 86% обращений автоматически решаются до того, как заказчик узнает о проблеме.

3. Анализ причин. Для устранения сложных проблем выделяется специалист, который проводит инженерно-технические работы и использует платформу InfoSight, чтобы быстро диагностировать основную причину проблемы, в том числе и за пределами СХД. Создаётся сигнатура с указанием определенных параметров, включая операционную систему, показатели производительности, профили приложений и рабочих задач, конфигурации сторонних поставщиков.

4. Устранение проблемы. Назначенный специалист разрабатывает план устранения проблемы, проверяет результат выполнения и закрывает обращение.

5. Предотвращение проблемы на остальном установленном оборудовании. InfoSight сопоставляет полученную сигнатуру с алгоритмом образца для выявления, прогнозирования и автоматического предотвращения проблемы в других системах.

Результатом стало то, что количество обращений, поступающих в службу поддержки НРЕ непосредственно от клиентов, каждый год сокращается на 19,3%. Такой результат достигнут несмотря на то, что за время работы InfoSight количество заказчиков Nimble выросло более чем в 10 раз.

Снижение количества обращений в поддержку непосредственного от заказчиков

И это ещё не всё

Система прогнозной аналитики InfoSight, позволяющая заказчикам сосредоточиться на своём основном бизнесе, а не на ИТ-проблемах, это не единственное достоинство СХД Nimble. Чем же она может ещё похвастаться?

Во-первых, это более высокая эффективная ёмкость на единицу сырой ёмкости, благодаря низким накладным расходам на RAID и ОС, а также адаптирующимся под тип данных алгоритмам сжатия и дедупликации, которые можно включить или отключить. Даже при равных коэффициентах сжатия и дедупликации Nimble показывает более высокую эффективную ёмкость, чем конкурентные решения. Конкретные коэффициенты дедупликации и сжатия гарантируются производителем по программе HPE Store More.

Причём эффективная ёмкость не зависит от нагрузки на систему (СХД конкурентов отключают дедупликацию при высокой нагрузке), а также от выхода из строя до трех дисков в каждой RAID-группе. Да, СХД Nimble может потерять по три диска в каждой RAID-группе и при этом сохранить доступность.

Во-вторых, это дедупликация on-line даже на гибридных массивах, что обеспечивает стоимость хранения на уровне Entry-level решений при сохранении всех Mid-range функций.

В-третьих, это дополнительный сервис HPE Timeless Storage, который за доплату в несколько процентов от стоимости массива при покупке гарантирует бесплатную замену контроллера на новый через три года, а потом еще раз еще через три года с гарантированным повышением производительности на 25% при каждом обновлении. В реальности замена контроллера на новое поколение даёт от 40 до 220% прироста производительности в зависимости от модели.

В-четвертых, это интеллектуальная система обеспечения SLA по производительности (IOPS и/или Мб/сек) и доступности по типам приложений, либо, по выбору администратора — на уровне отдельных элементов хранения (томов, папок).

В-пятых: производительность СХД Nimble предсказуема, определяется производительностью контроллеров и практически не зависит от типа или количества накопителей. В конкурирующих СХД использование большого числа накопителей (примерно более 40-50 SSD на массив) приводит к насыщению производительности контроллеров, и дальнейшее увеличение количества накопителей ведёт к деградации производительности. Кроме того, производительность и ёмкость Nimble может быть увеличена заменой контроллеров (без остановки работы массива), добавлением полок расширения и объединением до четырёх СХД в один кластер.

В-шестых: встроенные механизмы защиты данных (снэпшоты, репликация) в массивах Nimble позволяют добиваться очень хороших показателей RTO и RPO. Технология прямого бэкапа HPE RMC (Recovery Manager Central) позволяет выполнять полноценное резервное копирование и гибкое восстановление на дисковые библиотеки HPE StoreOnce без использования дополнительных средств. В конкурирующих СХД такие возможности отсутствуют.

В-седьмых: InfoSight даёт возможность анализа производительности СХД за последний год, в то время как в конкурирующих СХД можно получить данные только за несколько последних часов.

В-восьмых: модуль интеграции со средой виртуализации VMware — Nimble VM Vision — позволяет анализировать состояние виртуальных машин в части производительности, эффективности хранения данных и их размещения. Этот же модуль позволяет собирать данные о состоянии виртуальной среды, что значительно повышает точность аналитики и прогнозирования InfoSight. Обычно, подобный сервис можно получить только за отдельные деньги, но в Nimble он предоставляется по умолчанию.

Где это уже используется

ADAPEI de la Meuse

Французская медицинская ассоциация для родителей и детей с отклонениями в развитии ADAPEI de la Meuse выбрала HPE Nimble Storage, чтобы сократить время доступа к базам данных в 100 раз, а также обеспечить проактивное обслуживание СХД на базе HPE InfoSight. В ассоциацию входят 23 объекта в регионе, сотрудники которых не знакомы между собой, но им необходимо регулярно обмениваться данными. Поэтому было решено объединить всех в рамках одной ИТ-системы и развернуть единый распределённый центр обработки данных в головном офисе. В нём накапливается всё больше конфиденциальных данных, которые нужно защищать в соответствии с GDPR. Система позволяет обрабатывать до 800 платёжных ведомостей в месяц и обеспечивает работу нескольких офисных программных приложений. Число операций ввода-вывода в старой системе не превышало 400 в секунду, а флеш-массив HPE Nimble AF1000 All-Flash Array обеспечил до 35 000 операций ввода-вывода в секунду, что полностью обеспечило потребности ADAPEI de la Meuse.

iLand

Глобальный поставщик облачных услуг iland использует флеш-массивы HPE Nimble Storage с прогнозной аналитикой, интегрированные с системой Veeam Availability Suite, которые обеспечивают высокую производительность, безопасность и гарантированную защиту данных, а также их восстановление после сбоев. Эти функции предоставляются как облачная услуга «катастрофоустойчивость как сервис» (DRaaS). Даррен Куинн, архитектор облачных решений компании iland, говорит: «В Nimble нас привлекли возможности шифрования данных. Кроме того, нам нужно было хранение данных на флеш-накопителях для более высокой производительности при экономии средств. Система хранения данных HPE Nimble Storage для этой цели подошла идеально».

Rohde & Schwarz

Немецкий концерн Rohde & Schwarz, которые разрабатывает широкий диапазон корпоративного оборудования связи, ИТ и безопасности, использует СХД HPE 3PAR для бизнес-критичных приложений и баз данных. Концерн выбрал HPE Nimble для повышения производительности системы, эффективности управления и конфиденциальности данных по стандартам GDPR. По словам Йоханнеса Вайдахера, ИТ-специалиста Rohde & Schwarz, «масштаб и скорость роста объёма данных заставили искать способы улучшения управления и защиты данных. Параметры HPE Nimble даже превзошли потребности концерна по этим параметрам и обеспечили для него значительное сокращение времени вывода готовых продуктов на рынок».

А сколько это стоит

При чтении подобных статей у искушённого читателя неизбежно возникает вопрос: это прекрасно, но наверняка всё это стоит недёшево. Понятно, что имея бюджет, можно получить практически всё желаемое, но обычно в организациях ИТ-бюджеты не имеют тенденцию к безудержному росту, скорее наоборот.

Однако результаты сравнения Nimble с популярной СХД начального уровня HPE MSA показывают, что при прочих равных условиях с Nimble можно получить сравнимую стоимость системы! Это кажется невероятным, но это так.

Результаты сравнения примерных конфигураций можно получить по запросу.

Хотя MSA на первый взгляд стоит дешевле, однако в СХД Nimble имеются функции дедупликации и компрессии данных, чего нет в MSA. Поэтому при одинаковом полезном объёме для MSA требуется гораздо большая «сырая» ёмкость. На ряде конфигураций это обстоятельство делает цену довольно разных систем сравнимой.

А если прибавить к этому ещё и косвенную экономию рабочего времени ИТ-персонала за счёт того, что резко уменьшается количество обращений в техподдержку, и то, что бизнес организации будет более эффективным по причине высокой доступности системы, то это может дать ещё большую экономию ИТ-затрат. Расчёт такого показателя, как TVO (Total Value of Ownership), может показать дополнительное повышение эффективности для организации в целом.

ИТ-служба как источник экономии и повышения доходов — это до сих пор для большинства предприятий в России вещь достаточно экзотичная. Но тем не менее всё больше и больше заказчиков трансформируют ИТ из сопровождающей и обслуживающей функции в одно из ключевых конкурентных преимуществ. И ключом к такой трансформации может стать использование СХД Nimble с высокой доступностью за доступные деньги.

Автор статьи — Алексей Шалагинов, IT-эксперт ITELON.

СПЕЦПРОЕКТ КОМПАНИИ ITELON