Достигло ли традиционное хранилище данных конца своего жизненного цикла? Если да, то что придет ему на смену? Будет ли это гибрид? Тему обсуждают опрошенные порталом ComputerWeekly эксперты.

С 1990-х организации собирают, обрабатывают и анализируют бизнес-информацию в хранилищах данных. Термин «хранилище данных» (data warehouse) был введен в обиход американским компьютерщиком Биллом Инмоном в 1992 г., а сама концепция появилась еще раньше, с момента основания компании Teradata в 1979 г., и получила развитие в результате работы, проведенной IBM в начале 1980-х. Целью было позволить предприятиям анализировать бизнес-данные для улучшения процесса принятия решений без необходимости опрашивать десятки различных баз бизнес-данных.

С тех пор технология существенно продвинулась, предоставив организациям возможность обрабатывать данные в большем масштабе, с большей скоростью и точностью. Но некоторые эксперты сейчас считают, что срок службы хранилища данных подошел к концу.

Растущие объемы данных, а также необходимость более быстрой обработки и анализа информации, в том числе потенциально в режиме реального времени, создают слишком высокую нагрузку на традиционные архитектуры хранилищ данных.

А поставщики хранилищ данных сталкиваются с конкуренцией со стороны облачных технологий. Онпремисное хранилище данных может стоить миллионы долларов, на его внедрение уходят месяцы, и, что особенно важно, еще больше месяцев уходит на его перенастройку под новые запросы и новые типы данных. CIO рассматривают облако как более гибкий «дом» для аналитических инструментов.

Экспоненциальный рост объема бизнес-данных

По словам Ричарда Беркли, эксперта по данным и аналитике PA Consulting, традиционные хранилища данных не справляются с экспоненциальным ростом объема бизнес-данных. «Облако сегодня обеспечивает гораздо большую масштабируемость и гибкость, чем обычные хранилища данных, — говорит он. — Облачные технологии могут масштабироваться динамически, привлекая вычислительную мощность, необходимую для быстрого выполнения запросов, лишь на время обработки. Вы больше не платите за инфраструктуру, которая простаивает, и можете получить гораздо более высокую производительность, поскольку масштабирование обработки отдельных запросов намного превышает возможности онпремисных сервисов».

Объемы данных — не единственная проблема, стоящая перед хранилищем данных. Организации хотят избежать привязки к одной СУБД или технологии хранилища данных. Все чаще компании хотят извлекать информацию из потоков данных — из социальных сетей, электронной коммерции, датчиков и Интернета вещей (IoT). Хранилища данных с их тщательно разработанными схемами данных и процессами извлечения, преобразования и загрузки (ETL) недостаточно проворны для обработки такого типа запросов.

«Рынок эволюционировал, — говорит Алекс Макмуллан, главный технический директор по Европе, Ближнему Востоку и Африке компании Pure Storage. — Речь больше не идет о подготавливаемых за ночь пакетных отчетах, которые затем предоставляются генеральному директору в виде цветной распечатки. Люди занимаются анализом в режиме реального времени и зарабатывают на этом». Приложения, по его словам, могут быть самыми разнообразными: от «черного ящика» финансового трейдинга до мониторинга безопасности.

Взгляд со стороны озера

В свое время казалось, что озера данных (data lakes) придут на смену хранилищам данных. В озере данных информация хранится в необработанном виде в объектных хранилищах, в основном в облаке.

Озера данных быстрее создавать и эксплуатировать, поскольку не требуется предварительная обработка или очистка данных, и в озере могут храниться структурированные и неструктурированные данные. Обработка и ETL происходят, когда аналитик выполняет запрос.

Озера данных все чаще используются за пределами традиционной бизнес-аналитики, в таких областях, как искусственный интеллект и машинное обучение, и, поскольку они отходят от жесткой структуры хранилища данных, их иногда связывают с демократизацией бизнес-аналитики.

Однако у них есть и свои недостатки. Хранилища данных используют свою структуру для оптимизации производительности, и эта дисциплина может быть утрачена при создании озера данных.

«Организации могут накапливать больше данных, чем знают, что с ними делать, — говорит Тони Баер, аналитик dbInsight. — У них может не быть той дисциплины, которая присуща подходу, основанному на корпоративной архитектуре. Мы собираем больше данных, чем нам нужно, и они не используются в полной мере». Чтобы справиться с этим, предприятия бросают на решение проблемы больше ресурсов — что слишком легко сделать с помощью облака — и в итоге получают производительность «почти такую же, как у хранилища данных, с помощью грубой силы».

Контроль запросов и затрат

Это может быть неэффективным и дорогостоящим. Баер отмечает, что поставщики облачной аналитики, такие как Snowflake, встраивают больше оградительных механизмов для контроля запросов и затрат. «Они движутся в этом направлении, но пока что продолжать добавлять виртуальные машины все еще легко», — говорит он.

Хранилища данных и озера данных также существуют для поддержки различных требований предприятия. Хранилище данных хорошо подходит для повторяющихся и многократных запросов с использованием высококачественных, очищенных данных, которые часто выполняются пакетно. Озеро данных поддерживает более ситуативный — даже умозрительный — подход к изучению деловой информации.

«Мы видим, что для запросов типа „что, если“ используются озера данных или системы управления документами», — говорит Макмуллан. Он называет это аналитикой «охотников/собирателей», в то время как хранилища данных используются для «сельскохозяйственной» аналитики. «Аналитика охотника/собирателя — это поиск вопросов, которые нужно задать, а не повторение одного и того же вопроса, — отмечает он. — Однако цель отрасли — объединить в одной платформе эластичность, скорость и способность обрабатывать потоковые данные, а также эффективную обработку запросов».

Новые архитектуры

Это объясняет появление ряда новых категорий, включая «озерное хранилище данных» (lakehouse) — подход, используемый компанией Databricks, облачную многокластерную архитектуру Snowflake и Redshift Spectrum от Amazon, которая соединяет хранилище данных Redshift с памятью S3.

И хотя отрасль в основном отошла от попыток создания озер данных на базе Hadoop, на рынке набирают обороты другие Open Source-инструменты, такие как Apache Spark.

Перемены вызваны не столько технологиями, сколько изменениями в потребностях бизнеса в аналитике.

«Требования к данным отличаются от тех, что были пять или десять лет назад. Люди интересуются клиентской аналитикой, анализом изменений и аналитикой IoT, — говорит Ноэль Юханна, аналитик Forrester по управлению данными и хранилищам данных. — Появилось новое поколение источников данных, включая данные датчиков и IoT, и хранилища данных развиваются для решения этой проблемы в сторону обработки полуструктурированных и неструктурированных данных».

Облако добавляет эластичность и масштабируемость, а также экономию затрат как минимум на 20%, причем в некоторых ситуациях возможно сокращение затрат на 50% или даже 70%. Однако эксперт предупреждает, что лишь немногие компании действительно используют аналитические системы петабайтного масштаба. По подсчетам Forrester, таких компаний менее 3%, они в основном заняты производством и другими высокоинструментальными видами бизнеса. При этом они могут обращаться к периферийной обработке и машинному обучению, чтобы сокращать потоки данных и ускорять принятие решений.

Другим изменением является переход к обработке данных в реальном времени, поскольку «потоки кликов» в электронной коммерции, развлечениях и социальных сетях создают постоянные потоки информации, которая требует немедленного анализа, но имеет ограниченную долгосрочную ценность. Организации, со своей стороны, будут инвестировать в потоковую аналитику только в том случае, если бизнес сможет реагировать на информацию, что, в свою очередь, требует высокого уровня автоматизации.

Это побуждает некоторых поставщиков заявлять, что они могут работать на обоих рынках, сочетая гибкость озера данных со структурированной обработкой хранилища данных. И обеспечить бизнес-аналитику и машинное обучение на всех данных в lakehouse, устраняя необходимость использовать дублирующие архитектуры хранилищ и озер данных.

Однако означает ли это гибель обычного хранилища данных, пока неясно.

«Без lakehouse мир будет разделен на две разные части, — говорит Али Годси, генеральный директор Databricks. — Есть хранилища, которые в основном связаны с прошлым, и вы можете задавать там вопросы о том, „какова была моя выручка в прошлом квартале?“. С другой стороны, ИИ и машинное обучение — это все о будущем. Кто из моих клиентов исчезнет? Сломается ли этот двигатель? Это гораздо более интересные вопросы».

По его мнению, lakehouse является дорогой в будущее. «Через 10 лет вы уже не увидите, чтобы хранилища данных использовались в нынешнем виде, — говорит он. — Они останутся, подобно мэйнфреймам, но я думаю, что категория lakehouse вытеснит warehouse».

Назад в будущее

Однако далеко не все считают, что хранилище данных отжило свой век. Как признает Годси, некоторые системы будут существовать до тех пор, пока они полезны. И есть риски, связанные с переходом на новые платформы, какими бы большими ни были их перспективы. «Озера данных и новые модели инфраструктуры могут быть слишком упрощенными и не решать реальную проблему сложности управления и интеграции данных», — говорит Беркли.

Многое зависит от того, какие инсайты нужны организациям. «Хранилища данных и озера данных очень дополняют друг друга, — говорит Джонатан Эллис, директор по технологиям компании Datastax. — Мы не обслуживаем Twitter или Netflix из хранилища данных, но мы и не обслуживаем приборную панель BI из Cassandra. Мы запускаем приложения реального времени из Cassandra и проводим аналитику в хранилище данных».

По его словам, самое интересное в отрасли — это объединение потоковой технологии и хранилища данных. «Базы данных — вещь непростая, и хотя все в области хранилищ данных широко поддерживают Sequel, дьявол кроется в деталях, — говорит он. — То, как разрабатываются схемы достижения оптимальной производительности, отличается от поставщика к поставщику».

Эллис прогнозирует гибридную модель, включающую онпремисные и облачные решения, открытое и проприетарное ПО, для создания «деконструированного хранилища данных», более гибкого, чем традиционные предложения, и способного работать с данными в режиме реального времени.

С этим согласны другие представители отрасли. Скорее всего, мы увидим более разнообразный рынок, а не одну технологию, вытесняющую все остальные, хотя это и создаст проблемы для CIO.

Хранилище данных, скорее всего, еще некоторое время будет оставаться «золотым стандартом» для корпоративных данных.

Макмуллан прогнозирует, что организации будут использовать хранилища, озера и хабы для просмотра различных наборов данных через разные линзы. «Работать с современными наборами данных и требованиями к ним будет намного сложнее, чем раньше, — говорит он. — Речь больше не идет о том, что можно сделать в своей 42-юнитовой 19-дюймовой стойке».