Озеро данных — это фундаментальная концепция управления данными. Портал ComputerWeekly рассказывает о том, какой тип хранилища для озера данных лучше всего выбрать, а также о плюсах и минусах онпремисного и облачного типов хранения.

Обработка больших объемов данных — основа цифровой трансформации, и ключом к ее реализации является концепция озер данных, хранилищ данных, а также хабов и витрин данных.

Начать нужно с вершины этой иерархии — озер данных. По мере того как организации пытаются организовать доступ к своим данным и извлечь из них максимальную пользу, озеро данных становится ключевой концепцией. Это область управления данными и анализа, которая зависит от хранилища — иногда в значительной степени. Она созрела для перехода в облако, но также может оставаться онпремисной.

Озеро данных vs. хранилище данных

Озеро данных задумано как основное место, куда стекаются данные организации. Это репозиторий для всех данных, где они хранятся в необработанном или частично обработанном виде. В некоторых случаях к данным добавляются теги метаданных для облегчения поиска отдельных элементов. Предполагается, что доступ к данным в озере осуществляется специалистами по обработке данных, а также специалистами, которые устанавливают точки соприкосновения для нисходящей (downstream) передачи данных. Говорить от нисходящем потоке данных в контексте озера данных допустимо, потому что озеро данных, подобно настоящему озеру, аккумулирует данных из всех источников, и они могут быть многочисленными, разнообразными и необработанными.

Из озера данные по нисходящей попадают в хранилище данных, которое подразумевает нечто более обработанное, упакованное и готовое к применению. И если озеро хранит данные в сложных для распознавания или вообще не читаемых подавляющим большинством сотрудников форматах (неструктурированном, полуструктурированном), то хранилище данных состоит из структурированных в виде баз данных, которые доступны приложениям и сотрудникам. Данные, предоставляемые в форме витрин или хабов, еще более удобны для применения внутренними подразделениями компании.

Таким образом, озеро данных содержит большие объемы данных в исходном виде. В отличие от запросов к хранилищу или витрине данных, для запросов к озеру требуется подход schema-on-read (мы принимаем и храним все данные, и рассуждаем об их структуре только в момент чтения для конкретной задачи).

Озеро данных: типы данных и методы доступа

Источники данных в озере данных включают все данные организации или одного из ее подразделений. К ним относятся структурированные данные реляционных баз, полуструктурированные данные (CSV, файлы журналов и др.), данные в форматах XML и JSON, неструктурированные данные (э-письма, документы, PDF-файлы и др.), а также двоичные данные (изображения, аудио и видео). С точки зрения протокола хранения это означает, что озеру нужно хранить данные, которые возникли в файловом, блочном и объектном хранилищах.

Объектное хранилище — это общепринятый протокол для самого озера данных. Не забывайте, что оно открывает доступ не к самим данным, а к заголовкам метаданных. Последние описывают данные, их можно прикрепить к чему угодно, от базы данных до фотографии. Подробные запросы к данным могут происходить где угодно, но не в озере данных.

Объектное хранилище очень хорошо подходит для хранения больших объемов данных в неструктурированном виде. То есть с ним нельзя работать, как с базой данных в блочном хранилище, но оно позволяет хранить несколько типов объектов в большой плоской структуре и знать, что там находится.

Объектное хранилище обычно не гарантирует высокую производительности, но применительно к озеру данных это нормально: запросы для него создавать и обрабатывать сложнее, чем для реляционной базы в хранилище данных. Но это не страшно, потому что бóльшая часть запросов на этапе озера данных будет касаться формирования более пригодных для детальных запросов нижестоящих хранилищ данных.

Озеро данных: онпремис vs. в облаке

К операциям с озером данных применимы все обычные аргументы, касающиеся локального и облачного решений. При развертывании озера данных онпремис необходимо учитывать требования к площади и электропитанию, дизайну, закупке оборудования, ПО, управлению, квалификации персонала и текущим расходам.

Преимущество аутсорсинга озера данных в облаке в том, что капитальные затраты (capex) на инфраструктуру переводятся в операционные расходы (opex) в виде платежей поставщику облачных услуг. Однако по мере увеличения объемов данных, отправляемых в облако и из него, затраты могут вырасти и за это будет взиматься дополнительная плата.

В связи с этим необходим тщательный анализ преимуществ и недостатков каждой модели хранения. При этом также нужно принять во внимание такие вопросы, как соответствие нормативным требованиям и возможности подключения, которые выходят за рамки просто архитектуры хранилища и озера данных. Конечно, также можно работать в гибридном режиме, при необходимости расширяясь в облако.

Онпремисные продукты

Озеру данных, как правило, требуется большая емкость хранения. Если речь об озере данных масштаба предприятия, то оно определенно должно быть большого объема. В середине прошлого десятилетия производители систем хранения выпустили первые пробные продукты для работы с озерами данных. EMC, например, запустила в 2015 г. линейку Federation Business Data Lake, в которой были представлены СХД EMC, а также продукты VMware и Pivotal для работы с большими данными. Прощупав почву, в 2017 г. Dell EMC нацелила на развертывание озер данных свою платформу Elastic Data Platform. Кроме того, она расширила область применения своего горизонтально масштабируемого сетевого хранилища (NAS) Isilon на озера данных.

С момента своего ребрендинга Hitachi Vantara, возможно, делает больший упор на аналитику, большие данные и Интернет вещей. Она предлагает возможности по организации озера данных на основе СХД Hitachi Content Platform в сочетании с IoT-платформой Lumada и средами интеграции данных Pentaho. Платформа Pentaho Data Integration and Analytics нацелена на большие данные. Она предоставляет удаленный доступ к отчетам и аналитике; получив доступ к данным, пользователь может их обрабатывать и использовать где угодно. Pentaho поддерживает хранилища данных Hadoop, Spark, NoSQL и аналитические базы данных. Lumada использует ПО Pentaho для оркестрации, визуализации и аналитики данных.

IBM также относится к категории поставщиков массивов хранения и хранилищ для озер данных, выступает в качестве консультанта, а также сотрудничает с Cloudera, поставщиком платформы управления данными, которая предназначена для оркестровки и аналитики больших объемов данных.

NetApp не особо углубляется в сегмент СХД для озер данных, но все же у нее имеются свои массивы на базе Ontap в качестве хранилища для больших данных, Hadoop и Splunk, например.

HPE также не предпринимает активных действий в плане выпуска продуктов для развертывания озер данных, за исключением того, что их можно развернуть с помощью портфеля продуктов GreenLake с оплатой по факту использования.

Стоит отметить, что вы можете создавать озера данных на оборудовании любого поставщика, и в качестве подходящего инструмента можно выбрать коммерческий комплект white box.

Возможности в облаке

Некоторые крупные поставщики СХД пытались было предлагать аплайенсы для озер данных, но оказалось, что это слишком сложная задача с множеством ответвлений и больше подходит для консалтинга или конкретных внедрений. Между тем, поставщики облачных услуг пошли другим путем, и тройка самых крупных из них предлагает определенные сервисы в области озер данных.

Так, AWS предлагает консоль, с помощью которой клиенты могут искать и просматривать доступные наборы данных. Затем они могут помечать, искать, совместно использовать, преобразовывать, анализировать данные и управлять определенными подмножествами данных внутри компании или с внешними пользователями. Решение основано на базе объектного хранилища AWS S3 и использует для его обслуживания различные сервисы AWS, включая микросервисы AWS Lambda, посик Amazon Elasticsearch, аутентификацию пользователей Cognito, AWS Glue для преобразования данных и аналитику Amazon Athena.

Предложение Azure аналогично и предлагает возможность запуска программ для массового параллельного преобразования и обработки петабайтов данных на U-SQL, R, Python и .Net. У Microsoft также имеется Azure HDInsight — управляемая аналитическая служба на базе Open Source, которая включает в себя такие фреймворки, как Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm и R.

Облачная платформа Google немного меньше похожа на универсальный магазин для развертывания озера данных. Очевидно, GCP позволяет создавать озера данных — Google ранее говорила, что ею пользуется Twitter, но, вероятно, ее решение в большей степени требует консультационных услуг, чем стандартные предложения конкурентов.