НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Простудится ли Data Warehouse на похоронах Big Data?

Сергей Свинарев
30.11.2012 19:10:46

Тема больших данных (Big Data) по своей популярности скоро, пожалуй превзойдет так полюбившиеся нам облака. При ее обсуждении чего только не услышишь. И что реляционным СУБД приходит конец, и что хранилища данных скоро никому не будут нужны. И вообще, как говорится: "Забудьте все, чему вас учили в школе".

В этой связи весьма любопытна дискуссия, развернувшаяся на сайте InformationWeek между президентом Teradata Labs Скоттом Гнау и CEO компании Platfora Беном Верзером. Последний утверждает, что благодаря приходу Big Data построение корпоративных хранилищ данных уйдет в прошлое. Аргументы его вкратце таковы. Создание хранилища данных и сегодня сродни Сизифову труду: вы полтора года занимаетесь отбором источников данных, формулированием запросов к хранилищу, построением с учетом специфики указанных запросов его модели и структуры, а когда работа закончена, выясняется, что состав запросов изменился, нужны дополнительные данные и т.д. Короче, начинай все сначала.

То ли дело Hadoop. В его распределенную файловую систему можно загружать все данные подряд (структурированные и не очень), без оглядки на модели, схемы "звездочка" или "снежинка", предполагаемые аналитические запросы и прочие тонкости. Не нужны дорогие и сложные ETL-системы для очистки и загрузки данных в хранилище. Как говорится, "задавайте любой вопрос и получите любой ответ". smile:)

Оппонируя ему, Скотт Гнау в целом признает те замечательные возможности, которые предоставляет Hadoop, особенно для анализа слабо структурированной и избыточной информации. Тем не менее, он полагает, что безапелляционные поклонники новых технологий Big Data исходят из двух ошибочных постулатов. Во-первых, они обвиняют хранилища данных в отсутствии гибкости, а во-вторых, считают, что все ограничения Hadoop вскоре будут легко и быстро преодолены с помощью сформировавшегося вокруг этого направления сообщества программистов.

По первому пункту Скотт Гнау обращает внимание на то, что жесткость структуры корпоративного хранилища и лежащей в его основе модели данных - это не дефект концепции data warehouse, а требование бизнеса. Представьте себе, говорит он, что менеджеры для подготовки ежеквартального официального финансового отчета будут обращаться к сырым данным, не описанным формальной моделью и постоянно меняющим свою структуру. Последствия могут быть весьма печальные. Иными словами, дело не в том, лежат данные в Hadoop или реляционной БД, а в том, что без четкой модели данных за некоторые задачи лучше и на браться.

Говоря об ограничениях Hadoop, Скотт Гнау предостерегает от слишком радужных надежд на их скорое преодоление, пусть и с участием мощного программистского комьюнити. С момента своего рождения Hadoop не предназначался для SQL-обработки или BI, и пытаться возлагать на него подобные задачи - все равно, что "использовать молоток, там где нужна отвертка".

"История учит нас, что значение большинства новых технологий в краткосрочной перспективе всегда оценивается с избыточным оптимизмом, а в долгосрочной - с недостаточным" - предостерегает Гнау. Мне кажется, тем самым он хотел в вежливой форме сказать, что не все, о чем сегодня говорят как о магистральном направлении развития ИТ-индустрии, окажется таковым на самом деле. А если забыть об этикете, то формулировка могла бы быть и жестче: "Data Warehouse еще простудится на похоронах Big Data".

А что если Скотт Гнау прав? smile:o

Комментариев: 5

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

01.12.2012 11:15:50

Все же я бы не стал ставить знак равенства (в плане аналогий с мыльным пузырем) между Big Data и Cloud.

Да, конечно, и то и другое - термины, появившимся в результате чисто маркетинговых идей (и тут да же не вопрос продаж чего-то конкретного, а, скорее, использования терминов для привлечения к собственной персоне). Но все же сегодня, "облака" - приобрели некоторые осмысленное понимание, как некоторая общая тенденция развития ИТ. Big Data же представляются как очень аморфное, но при этот и весьма специализированное направление. Противопоставлять Big Data и СУБД - примерно, как сравнивать автомобили и самолеты...

02.12.2012 16:00:43

Зачем “простужаться на похоронах”? Лучше “дружить семьями” и помогать друг другу при жизни!

Видимо, я что-то фундаментальное недопонимаю... smile:(

Всегда считал, что под термином Big Data понимаются не столько собственно большие объемы данных (десятки, сотни и более Тб), сколько методы их обработки и представления в виде (в том числе, графическом), позволяющем уловить закономерности. С той целью, чтобы на основе понимания этих закономерностей принимать правильные управленческие решения.

А уж где хранятся исходные данные – в традиционных СУБД (иерархических, реляционных, сетевых и так далее), или СУБД, специально заточенных под хранение больших данных – дело второе (ну или совсем другое). Разве не так?

Одним словом – зачем “простужаться на похоронах”? Лучше “дружить семьями” и помогать друг другу при жизни!

К тому же, большие данные (как собственно данные) не сразу становятся “большими” – они постепенно вырастают из “маленьких” (проходя при этом стадию “средних”).

02.12.2012 23:38:22

Мне представляется, что, говоря о Big Data, делать акцент на больших объемах или разношерстности данных - это сознательно вводить себя и других в заблуждение. Я помню, когда слово гигабайт вызывало такой же трепет, как сегодня петабайт. Если исходить из объема, то, согласимся, в каждую эпоху были свои уровни, с которых начинались Большие Данные. А что раньше не пытались анализировать слабоструктурированную информацию? Если мне не изменяет память, Text Mining применяется уже не один десяток лет. То, что сегодня столь активно заговорили о Big Data, связано с появлением нового инструмента (Hadoop) и большими ожиданиями от него. История полна такими примерами. Когда, скажем, появился электронный микроскоп, все бросились смотреть через него на самые разные объекты и даже пробовали использовать не совсем по прямому назначению. В данном случае, мы, как мне кажется, находимся именно на этом этапе осмысления и применения нового инструментария Big Data. Отсюда и излишний оптимизм и завышенные ожидания некоторых игроков. Упомянутая в данном посте дискуссия как раз и отражает эту ситуацию.

Мое мнение: разумеется, никаких похорон Big Data не будет. Как впрочем, и предрекаемого противоположной стороной торжественного отпевания Data Warehouse.

03.12.2012 10:05:36

А что подразумевается под "похоронами"? Как можно хоронить то, что, вообще говоря, не существует. Точнее, существует, но лишь как некоторая идея-концепция?

03.12.2012 10:57:55

Идеи тоже иногда изживают себя. К примеру, идея о том, что Земля плоская.

Но, как мне кажется, Hadoop уже давно не голая концепция. Кое-кто (Google) этой системой пользуется для решения реальных задач.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии