Данные повсюду, но куда их все положить? Опрошенные порталом InformationWeek эксперты обсуждают пять подходов к созданию быстрых и высокоемких систем хранения данных.

Поскольку предприятия продолжают накапливать огромные объемы информации, генерируемой людьми, бизнесом, транспортными средствами и практически бесконечным списком других источников, многие задаются вопросом, где они могут хранить все эти данные доступно, безопасно, надежно и с минимальными затратами.

За последние пять лет бизнес СХД значительно изменился, и эта трансформация продолжается и расширяется. Большая разница сегодня заключается в том, что если раньше в сфере хранения данных были проблемы, связанные с оборудованием, например, с твердотельными накопителями, более высокими скоростями чтения-записи и наращиванием емкости, то сейчас облако и другие прорывы в сфере хранения данных перевернули рынок, выведя на передний план проблемы с ПО.

«Для большинства организаций СХД в большей степени связаны с ПО, включая программно-определяемые системы хранения, программно-управляемую виртуализацию, а также интеграцию искусственного интеллекта и машинного обучения для оптимизации систем хранения», — говорит Скотт Голден, управляющий директор по корпоративным данным и аналитике в глобальной консалтинговой компании Protiviti.

Вот краткий обзор пяти перспективных технологий хранения данных, которые могут сейчас или в обозримом будущем помочь предприятиям справиться с растущими потребностями хранения данных.

1. Озера данных

Когда дело доходит до обработки больших наборов данных и извлечения из них ценности, большинство клиентов начинают с озер данных, при этом они используют облачные сервисы и программные решения, чтобы получить больше от своих озер, сказал Голден: «Озера данных, такие как Azure ADL или Amazon S3, предоставляют возможность собирать большие объемы структурированных, полуструктурированных и неструктурированных данных и хранить их в виде массивов двоичных данных (Blobs, Binary Large OBjects) или „паркетных“ файлов (Parquet — бинарный, колоночно-ориентированный формат хранения данных) для легкого извлечения».

2. Виртуализация данных

Виртуализация данных позволяет пользователям опрашивать данные во многих системах без необходимости их копирования и репликации. Она также может упростить аналитику, сделать ее более своевременной и точной, так как пользователи всегда запрашивают у источника последние данные. «Это означает, что данные нужно сохранить только один раз, а далее получать разные представления данных для транзакций, аналитики и т. д. — вместо того, чтобы копировать и реструктурировать данные для решения разных задач», — пояснил Дэвид Линтикум, директор Deloitte Consulting по облачной стратегии.

Виртуализация данных существует уже некоторое время, но с ростом использования данных, их сложности и избыточности этот подход получает все большее распространение. С другой стороны, виртуализация данных может привести к снижению производительности, если абстрагирование или мапирование данных слишком сложны и требуют дополнительной обработки, отметил Линтикум. Еще одна проблема — более длинная кривая обучения для разработчиков, которым часто требуется больше учиться.

3. Гиперконвергентное хранилище

Несмотря на то, что это не самая современная технология, гиперконвергентные системы хранения данных также внедряются все большим числом организаций. Они, как правило, входят в состав гиперконвергентной инфраструктуры, в которой СХД объединяются в единую систему с вычислительными и сетевыми ресурсами, пояснила Ян Хуанг, доцент кафедры бизнес-технологий школы бизнеса Теппера при Университете Карнеги-Меллона.

Она отметила, что гиперконвергентная система хранения упрощает и оптимизирует хранение данных, а также их обработку. Она также позволяет независимо масштабировать вычислительные мощности и емкость хранилища. Еще одним большим плюсом является то, что предприятия могут создавать гиперконвергентные СХД, используя все более популярный сетевой протокол NVMe over Fabrics (NVMe oF). «В связи с пандемией удаленная работа стала новой нормой, — сказала Хуанг. — Так как некоторые организации переводят часть своей рабочей силы на удаленку на постоянной основе, гиперконвергентное хранилище является привлекательным решением, поскольку оно хорошо подходит для удаленной работы».

4. Вычислительное хранение

Вычислительное хранение (computational storage) — молодая технология, которая сочетает в себе хранение и обработку, позволяя приложениям работать непосредственно на накопителях информации. «Вычислительное хранение предполагает встраивание маломощных CPU и ASIC в SSD, что снижает задержки доступа к данным за счет устранения необходимости их перемещения», — сказал Ник Хойдекер, старший директор по стратегии поставщика технологических услуг Cribl.

Вычислительное хранение может быть полезно практически в любом ресурсоемком случае. По словам Хойдекера, источники данных наблюдения, такие как журналы, метрики, следы и события, в большинстве компаний являются карликовыми по сравнению с другими источниками данных. Однако в настоящее время поиск и обработка таких данных является проблемой даже учитывая их небольшие объемы. «Легко видеть применение вычислительного хранения данных в сфере наблюдаемости: сложные поиски переносятся непосредственно на SSD, что снижает задержку при одновременном повышении производительности и снижении выброса углерода», — заметил он.

Главный недостаток технологии заключается в том, что приложения необходимо переписывать, чтобы воспользоваться преимуществами новой модели. «Это займет время, и прежде чем это произойдет, область ее применения должна созреть», — сказал Хойдекер. Кроме того, в настоящее время в разработке этой технологии доминируют небольшие стартапы, стандартов пока нет, что затрудняет переход из фазы раннего доказательства концепции на следующий уровень. «Если организации хотят принять в этом участие, они могут следить за работой технической рабочей группы по вычислительному хранению Ассоциации производителей сетевых устройств хранения данных (SNIA), занимающейся разработкой стандартов», — посоветовал он.

5. Хранение данных на базе ДНК

Самой отдаленной в плане времени, но в то же время потенциально способной самым сильным образом изменить ход событий, является технология хранения данных на основе ДНК. Синтетическая ДНК обещает беспрецедентную плотность хранения данных. Один грамм ДНК может хранить более 200 Пб данных. И эти данные долговечны. «При хранении в соответствующих условиях ДНК может легко прослужить 500 лет», — заявил Хойдекер.

При хранении данных на базе ДНК цифровые биты (нули и единицы) транслируются в коды азотистых оснований (nucleobases), а затем преобразуются в синтетическую ДНК (реальные органические биты не используются). Затем ДНК сохраняется. «Если вам нужно реплицировать ее, вы можете сделать это дешево и легко с помощью ПЦР (полимеразная цепная реакция), сделав миллионы копий данных», — сказал Хойдекер. Когда приходит время считывать данные обратно, существующая технология секвенирования преобразует азотистые основания обратно в нули и единицы.

На следующем этапе для обработки данных в их ДНК-представлении используются ферменты. «Точно так же, как вычислительное хранение переносит обработку к данным, вы можете вводить ферменты в ДНК-данные, обеспечивая массивное распараллеливание обработки больших объемов данных, — отметил он. — В результате ферменты „пишут“ новые нити ДНК, которые затем секвенируются и преобразуются обратно в цифровые данные».

Хранение данных на базе ДНК также дает преимущество с точки зрения выбросов углерода. «Поскольку это все природные биологические процессы, углеродный след минимальный», — сказал Хойдекер. Однако, у этой технологии пока есть значительные недостатки. Создание достаточного количества синтетической ДНК для полноценного ДНК-накопителя в настоящее время стоит запредельно дорого, но такие компании, как CATALOG, работают над этой проблемой, отметил он.

Тем не менее многие фирмы, стремящиеся усовершенствовать технологию ДНК-хранения, такие как Microsoft, Illumina и Twist Bioscience, упорно работают над тем, чтобы сделать ее достаточно практичной для повседневного использования. «Я прогнозирую, что самые ранние ДНК-накопители будут доступны в облачной модели в течение четырех лет», — сказал Хойдекер.