На прошедшем на днях публичном вебинаре компания Hortonworks, поставляющая один из дистрибутивов Hadoop, представила ряд последних результатов своей работы. Я принял участие в этом вебинаре и по его окончании провел с Hortonworks брифинг, чтобы лучше понять суть и значение того, о чем она сообщила. Содержание этих сообщений охватывает три области.

Apache Spark и партнерство с Hewlett Packard Enterprise

Технологи лаборатории Hewlett Packard Enterprise (HPE) Labs оптимизировали компонент Apache Spark, называющийся Shuffle Engine, переписав его на C++. По их заявлениям, в результате оптимизации производительность обработки определенных нагрузок возросла до 15 раз. HPE намерена сделать этот код открытым (похоже, чтобы проверить, как он будет работать внутри стандартной кодовой базы Spark) и будет сотрудничать в этом направлении с Hortonworks. Кроме этого Hortonworks в настоящее время включает Spark 1.6 в свой Hadoop-дистрибутив Hortonworks Data Platform (HDP), причем, по ее заявлению, она это делает первой среди вендоров Hadoop.

Hortonworks DataFlow

Hortonworks DataFlow (HDF), пакет Hortonworks для потоковой передачи данных на базе Apache NiFi, теперь включает Apache Storm и Apache Kafka. Раньше, чтобы задействовать NiFi со Storm и/или Kafka, пользователям приходилось выбирать эти два компонента из HDP, и для поддержки от Hortonworks требовалась одновременная подписка на HDP и HDF. Теперь же HDF можно использовать с дистрибутивами других вендоров Hadoop, сохраняя в отношении HDF поддержку Hortonworks.

Также отметим, что Hortonworks объявила о партнерстве с Impetus Technologies, чтобы продукт последней StreamAnalytix мог свободно интегрироваться с HDF.

Новые пакеты и частота релизов Hortonworks Data Platform

Hortonworks приводит HDP в соответствие с ядром Hadoop и расширенными описаниями проекта Open Data Platform (ODPi), в котором Hortonworks участвует как член-основатель. Компания сократит частоту релизов базовых компонентов до одного раза в год. Базовые компоненты включают YARN, HDFS, MapReduce и Zookeeper. Другие компоненты типа Hive, Pig и Spark будут выходить чаще.

Что касается расширений, Hortonworks выпустит новый релиз Apache Ambari вместе с SmartSense, что улучшит управляемость Hadoop и автоматизацию решения операционных задач. Для описания того, как Ambari упрощает управление Hadoop, Hortonworks использует термин «single pane of glass», означающий панель управления, интегрирующую данные из многих источников. Если раньше вы сомневались в корпоративных амбициях Hortonworks, то под этот случай как нельзя лучше подойдет сленговое выражение Enterprise-y (претендующий на корпоративность продукт).

Что все это значит

Познакомившись с этой информацией, попробуем сделать из нее некоторые выводы и сопоставить ее с тем, что Hortonworks необходимо поднять упавшую стоимость своих акций — иными словами, перестроить и перезагрузить свой рыночный подход.

Первым и главным выводом из сказанного является готовность предложений компании к корпоративному применению. При менее частых релизах корпоративным ИТ-департаментам будет куда легче и дешевле управлять инфраструктурой. Хотя Hadoop еще является лабораторным инструментарием, в его отношении у пользователей существуют большие ожидания. Если же Hadoop-кластеры уже заработали в организации, а тем более, если они централизованно выполняют операционные функции, обслуживая многочисленных корпоративных партнеров и клиентов, важным фактором становится стабильность, и частые апгрейды создают издержки и риски. Поэтому очень разумен переход на ежегодные релизы. А нахождение под прикрытием ODPi создает впечатление отраслевого стандарта, даже если другие крупные Hadoop-вендоры, Cloudera и MapR, с ODPi никак не связаны.

Что касается Apache Spark, Hortonworks признает, что сегодня это отраслевой стандарт. Меж тем остается тот факт, что, будучи технологией, ориентированной на использование оперативной памяти, Spark не масштабируется на столь же большие объемы данных, как MapReduce и Tez. Это ставит перед Hortonworks две задачи — всецело осваивать Spark и усердно работать над улучшением масштабируемости. Они выходят за рамки партнерства с HPE и согласуются с неявным желанием Hortonworks приобрести репутацию поставщика корпоративного ПО и серверной компании.

В отношении DataFlow следуют два вывода: потоковые данные — вещь актуальная и то же можно сказать о Kafka. Хотя и NiFi — замечательная технология, с точки зрения пользователей пакет для потоковых данных без Kafka наверняка выглядит аномальным, а нужда в подписке на HDP для объединения NiFi и Kafka может стать раздражающим фактором, поскольку несет привкус замыкания на одного вендора. Добавление Kafka (и Storm) в HDF эти возражения снимает, а дополнительным плюсом является согласие Hortonworks поставлять HDF заказчикам, уже постоянно работающим с дистрибутивом Cloudera, включающим Apache Hadoop (CDH).

Пользуйтесь моментом

Если собрать вместе все эти новые предложения Hortonworks, вырисовывается рационально выстроенный стек с управляемой последовательностью релизов, приличной управляемостью корпоративного дата-центра, улучшенным и упрощенным доступом к потоковым данным и усовершенствованиями Apache Spark для лучшей готовности к корпоративной обработке больших данных.

Сегодняшняя комбинация HDP и HDF реально становится корпоративным предложением, и даже собственно HDF можно считать проводником в корпоративную среду. Хотя всё это может и не сказаться на биржевом курсе Hortonworks, ныне составляющем меньше половины уровня IPO, это хорошая серия тонких и продуманных шагов в правильном направлении, которые наверняка создадут прецедент для других игроков отрасли.