В этой связи весьма любопытна дискуссия, развернувшаяся на сайте InformationWeek между президентом Teradata Labs Скоттом Гнау и CEO компании Platfora Беном Верзером. Последний утверждает, что благодаря приходу Big Data построение корпоративных хранилищ данных уйдет в прошлое. Аргументы его вкратце таковы. Создание хранилища данных и сегодня сродни Сизифову труду: вы полтора года занимаетесь отбором источников данных, формулированием запросов к хранилищу, построением с учетом специфики указанных запросов его модели и структуры, а когда работа закончена, выясняется, что состав запросов изменился, нужны дополнительные данные и т.д. Короче, начинай все сначала.
То ли дело Hadoop. В его распределенную файловую систему можно загружать все данные подряд (структурированные и не очень), без оглядки на модели, схемы "звездочка" или "снежинка", предполагаемые аналитические запросы и прочие тонкости. Не нужны дорогие и сложные ETL-системы для очистки и загрузки данных в хранилище. Как говорится, "задавайте любой вопрос и получите любой ответ".
Оппонируя ему, Скотт Гнау в целом признает те замечательные возможности, которые предоставляет Hadoop, особенно для анализа слабо структурированной и избыточной информации. Тем не менее, он полагает, что безапелляционные поклонники новых технологий Big Data исходят из двух ошибочных постулатов. Во-первых, они обвиняют хранилища данных в отсутствии гибкости, а во-вторых, считают, что все ограничения Hadoop вскоре будут легко и быстро преодолены с помощью сформировавшегося вокруг этого направления сообщества программистов.
По первому пункту Скотт Гнау обращает внимание на то, что жесткость структуры корпоративного хранилища и лежащей в его основе модели данных - это не дефект концепции data warehouse, а требование бизнеса. Представьте себе, говорит он, что менеджеры для подготовки ежеквартального официального финансового отчета будут обращаться к сырым данным, не описанным формальной моделью и постоянно меняющим свою структуру. Последствия могут быть весьма печальные. Иными словами, дело не в том, лежат данные в Hadoop или реляционной БД, а в том, что без четкой модели данных за некоторые задачи лучше и на браться.
Говоря об ограничениях Hadoop, Скотт Гнау предостерегает от слишком радужных надежд на их скорое преодоление, пусть и с участием мощного программистского комьюнити. С момента своего рождения Hadoop не предназначался для SQL-обработки или BI, и пытаться возлагать на него подобные задачи - все равно, что "использовать молоток, там где нужна отвертка".
"История учит нас, что значение большинства новых технологий в краткосрочной перспективе всегда оценивается с избыточным оптимизмом, а в долгосрочной - с недостаточным" - предостерегает Гнау. Мне кажется, тем самым он хотел в вежливой форме сказать, что не все, о чем сегодня говорят как о магистральном направлении развития ИТ-индустрии, окажется таковым на самом деле. А если забыть об этикете, то формулировка могла бы быть и жестче: "Data Warehouse еще простудится на похоронах Big Data".
А что если Скотт Гнау прав?
Мое мнение: разумеется, никаких похорон Big Data не будет. Как впрочем, и предрекаемого противоположной стороной торжественного отпевания Data Warehouse.
Но, как мне кажется, Hadoop уже давно не голая концепция. Кое-кто (Google) этой системой пользуется для решения реальных задач.