Cloudera, создатель наиболее распространенного дистрибутива Hadoop, объявила о выпуске версии 4 своего варианта Hadoop с открытым исходным кодом, известного как CDH (Cloudera's Distribution including Apache Hadoop), а также продукта Cloudera Enterprise 4.0.

Это не просто повышение версии Hadoop-продукта Cloudera на очередную единицу, так как CDH 4 содержит новое ядро Hadoop 2.0 с целым рядом новых функций в рабочем, стабильном и поддерживаемом релизе.

Вот ряд примеров новых возможностей CDH 4.

  • Высокий уровень доступности файловой системы HDFS (Hadoop Distributed File System) — ее сервер метаданных NameNode уже не является уязвимым звеном, так как может поддерживаться резервным оборудованием.
  • Присутствие фреймворка MapReduce 2.0, который, как ни странно, допускает иные, чем MapReduce, алгоритмы обработки данных, как и возможность писать код MapReduce на языках, отличных от Java.
  • Возможность продолжать использовать MapReduce 1.0 в сочетании с другими компонентами Hadoop 2.0.
  • Полномочия уровня таблицы и уровня столбцов для СУБД HBase.
  • “Сопроцессоры” для HBase с функциональностью, похожей на вставку триггеров в реляционные СУБД.
  • Более детальное распределение заданий, обеспечивающее лучшую поддержку коммунального использования кластера.
  • Интерфейс веб-сервисов RESTful к HDFS.
  • Оболочка для Apache Pig и HBase на базе веб-браузера.
  • Многочисленные улучшения производительности в MapReduce, HDFS и Flume.

А вот примеры интересных новшеств в Cloudera Enterprise 4.0.

  • Мастер настройки и управления многими кластерами из одной консоли.
  • Цветовые теплокарты, показывающие степень исправности кластеров Hadoop.
  • Поддержка хранения баз метаданных в Oracle 11g, MySQL или PostgreSQL.

Одной из отличительных особенностей самой компании Cloudera, помимо возможностей дистрибутива Hadoop, является количество ее партнерских связей с фирмами, занимающимися BI (бизнес-интеллект) и “большими данными”. По информации Cloudera, на сегодня у нее имеется уже 250 таких партнерств.

Как мне удалось выяснить, в компании действует специальная техническая группа по партнерским связям, которая заботится о том, чтобы это были не просто бизнес-связи, а подлинная и надежная интеграция в интересах развития экосистемы. Это обстоятельство объясняет, почему почти все участники бизнеса в сфере “больших данных” хотят стать партнерами Cloudera.

Для больших данных сегодня настало важное время. Появилась крепкая экосистема, базовая платформа становится все более развитой и надежной, а средства обеспечения управляемости тесно приближаются к современным стандартам центров обработки данных. Давайте последим за тем, как эти приобретения будут абсорбироваться и использоваться в профильных компаниях и продуктах.