НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Простудится ли Data Warehouse на похоронах Big Data?

Тема больших данных (Big Data) по своей популярности скоро, пожалуй превзойдет так полюбившиеся нам облака. При ее обсуждении чего только не услышишь[spoiler]. И что реляционным СУБД приходит конец, и что хранилища данных скоро никому не будут нужны. И вообще, как говорится: "Забудьте все, чему вас учили в школе".

В этой связи весьма любопытна дискуссия, развернувшаяся на сайте InformationWeek  между президентом Teradata Labs Скоттом Гнау и CEO компании Platfora Беном Верзером. Последний утверждает, что благодаря приходу Big Data построение корпоративных хранилищ данных уйдет в прошлое. Аргументы его вкратце таковы. Создание хранилища данных и сегодня сродни Сизифову труду: вы полтора года занимаетесь отбором источников данных, формулированием запросов к хранилищу, построением с учетом специфики указанных запросов его модели и структуры, а когда работа закончена, выясняется, что состав запросов изменился, нужны дополнительные данные и т.д. Короче, начинай все сначала.

То ли дело Hadoop. В его распределенную файловую систему можно загружать все данные подряд (структурированные и не очень), без оглядки на модели, схемы "звездочка" или "снежинка", предполагаемые аналитические запросы и прочие тонкости. Не нужны дорогие и сложные ETL-системы  для очистки и загрузки данных в хранилище. Как говорится, "задавайте любой вопрос и получите любой ответ". :)

Оппонируя ему, Скотт Гнау в целом признает те замечательные возможности, которые предоставляет Hadoop, особенно для анализа слабо структурированной и избыточной информации. Тем не менее, он полагает, что безапелляционные поклонники новых технологий Big Data исходят из двух ошибочных постулатов. Во-первых, они обвиняют хранилища данных в отсутствии гибкости, а во-вторых, считают, что все ограничения Hadoop вскоре будут легко и быстро преодолены с помощью сформировавшегося вокруг этого направления сообщества программистов.

По первому пункту Скотт Гнау обращает внимание на то, что жесткость структуры корпоративного хранилища и лежащей в его основе модели данных - это не дефект концепции data warehouse, а требование бизнеса. Представьте себе, говорит он, что менеджеры для подготовки ежеквартального официального финансового отчета будут обращаться к сырым данным, не описанным формальной моделью и постоянно меняющим свою структуру. Последствия могут быть весьма печальные. Иными словами, дело не в том, лежат данные в Hadoop или реляционной БД, а в том, что без четкой модели данных за некоторые задачи лучше и на браться.

Говоря об ограничениях Hadoop, Скотт Гнау предостерегает от слишком радужных надежд на их скорое преодоление, пусть и с участием мощного программистского комьюнити. С момента своего рождения Hadoop не предназначался для SQL-обработки или BI, и пытаться возлагать на него подобные задачи - все равно, что "использовать молоток, там где нужна отвертка".

"История учит нас, что значение большинства новых технологий в краткосрочной перспективе всегда оценивается с избыточным оптимизмом, а в долгосрочной - с недостаточным" - предостерегает Гнау. Мне кажется, тем самым он хотел в вежливой форме сказать, что не все, о чем сегодня говорят как о магистральном направлении развития ИТ-индустрии,  окажется таковым на самом деле. А если забыть об этикете, то формулировка могла бы быть и жестче: "Data Warehouse еще простудится на похоронах Big Data".

А что если Скотт Гнау прав? :o
Свинарев Сергей
Мне представляется, что, говоря о Big Data, делать акцент на больших объемах или разношерстности данных - это сознательно вводить себя и других в заблуждение. Я помню, когда слово гигабайт вызывало такой же трепет, как сегодня петабайт. Если исходить из объема, то, согласимся, в каждую эпоху были свои уровни, с которых начинались Большие Данные. А что раньше не пытались анализировать слабоструктурированную информацию? Если мне не изменяет память, Text Mining применяется уже не один десяток лет. То, что сегодня столь активно заговорили о Big Data, связано с появлением нового инструмента (Hadoop) и большими ожиданиями от него. История полна такими примерами. Когда, скажем, появился электронный микроскоп, все бросились смотреть через него на самые разные объекты и даже пробовали использовать не совсем по прямому назначению. В данном случае, мы, как мне кажется, находимся именно на этом этапе осмысления и применения нового инструментария Big Data. Отсюда и излишний оптимизм и завышенные ожидания некоторых игроков. Упомянутая в данном посте дискуссия как раз и отражает эту ситуацию.

Мое мнение: разумеется, никаких похорон Big Data не будет. Как впрочем, и предрекаемого противоположной стороной торжественного отпевания Data Warehouse.
Колесов Андрей
А что подразумевается под "похоронами"? Как можно хоронить то, что, вообще говоря, не существует. Точнее, существует, но лишь как некоторая идея-концепция?
Свинарев Сергей
Идеи тоже иногда изживают себя. К примеру, идея о том, что Земля плоская.

Но, как мне кажется, Hadoop уже давно не голая концепция. Кое-кто (Google) этой системой пользуется для решения реальных задач.