НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Куда пойдёт Hadoop?

Главным стратегическим событием прошедшей недели стал выход Hadoop 2.0 (заметка о нем тут).

[spoiler]Hortonworks выпустила дистрибутив, базирующийся на новой архитектуре YARN (которую подчас даже называют ОС для Big Data), для которой технология MapReduce теперь не основная-единственная, как было раньше, а одна из множества равноправных, подключаемых к YARN через стандартный интерфейс. Что это означает для пользователей? Теперь компания может хранить абсолютно все свои данные в одном месте, организовывая к ним доступ самыми разными средствами -- от SQL-запросов (через Hive 0.12) до всевозможных NoSQL-вариантов.

Однако работы над дальнейшим развитием Hadoop 2.0 еще непочатый край. Пока к ее главным недостаткам относят определенные проблемы с защитой данных, далеко не идеальные стабильность-надежность, и трудности-сложности с развертыванием и интеграцией с действующими системами. Но так как спрос на Hadoop-подобные решения очень велик, нет сомнения, что эти проблемы будут успешно решены. В первом приближении, конечно, за денежку: SAS и Teradata молниеносно представили платформу на базе Teradata Unified Data Architecture, которая расширяет Hadoop 2.0 поддержкой известных аналитических систем.

Английская WANdisco сообщила о решении Non-Stop Hadoop, придающем особую надежность стандартному дистрибутиву Hadoop. Cloudera анонсировала Cloudera Search -- прямой доступ к файловой системе HDFS через веб-интерфейс. Немножечко схожие технологии представила и HP, выпустив Platfora Big Data Analytics 3.0 -- это BI-решение на основе Hadoop, которое реализует весьма хитрые подходы к поиску коррелирующих сведений в БД со структурированной информацией и в «сырых» данных HDFS. Клиенту также предоставляются механизмы построения объектного каталога интересующих его тем для анализа (например, по пользователям, продуктам, итд).