Предприятие и Hadoop могут составить прекрасный тандем с наступлением нового этапа в развитии технологии анализа корпоративных данных. Что может быть более привлекательным, чем платформа, сочетающая старое и новое, появление которой сопровождается восклицанием “Вот он!” — компьютерный инструмент, позволяющий опередить конкурентов?

Hadoop 2.0 имеет шансы стать корпоративной платформой. Но предприятия с опасением относятся к технологии, которая лишь начинает демонстрировать свою полезность.

На прошлой неделе 2,5 тыс. преисполненных энтузиазма участников конференции по Hadoop разбились на секции: “Hadoop проходит критическую точку и обретает будущее”, “Hadoop как основа корпоративных архитектур данных следующего поколения”, “Использование Hadoop на предприятии” и др. Хотя с 2005 г., когда были заложены основы Hadoop, прошло шесть конференций, и он превратился в зрелый продукт, энтузиазм участников нынешней встречи еще не свидетельствует о его широком распространении на предприятиях.

Вице-президент Gartner по исследованиям Мерв Эдриан ознакомил присутствующих с предварительными результатами проведенного в этом году исследования больших данных. Были изучены инвестиции в обработку больших данных. Обнаружилась “неизменная треть рынка”. Это означает, что с 2012 г. доля компаний, не имеющих планов инвестирования в проекты, связанные с большими данными, практически не изменилась. Единственное изменение заключается в резком сокращении числа респондентов, сообщивших, что не знают, имеются ли в их компаниях планы относительно больших данных (с 11% в 2012 г. до 5% в 2013 г.).

Хотя возникновение необходимости в обработке больших данных (прежде всего, им трудно дать определение) не вполне совпадает с появлением Hadoop, это близко по срокам, а производители, строящие свой бизнес на Hadoop, проекте фонда Apache с открытым исходным кодом, тесно связаны и с большими данными. Эти производители, в первую очередь спонсор конференции компания Hortonworks, а также участники этого мероприятия готовы реализовывать проекты на базе Hadoop. Но что заставит ту самую “неизменную треть” вкладывать в них деньги?

Сторонники Hadoop надеются, что появившиеся в Hadoop 2.0 функции, особенно менеджер ресурсов YARN, убедят даже “неизменную треть” перейти в категорию планирующих внедрение, а затем и в категорию реализующих проекты.

YARN (Yet Another Resource Negotiator) обладает некоторыми очень интересными возможностями. Это крупный шаг к превращению Hadoop из прекрасно масштабируемого, но ориентированного на операции с пакетами данных приложения в движок для множества приложений. Арун Мёрфи (один из первых разработчиков Hadoop) написал в своем блоге, что “благодаря YARN у нас есть теперь возможность использовать SQL в Hadoop. Когда язык запросов входит в состав Hadoop (построенного на YARN), он становится частью самой платформы и может управляться посредством YARN, благодаря чему можно решать различные задачи. Нужно ли ограничиваться использованием SQL? Что можно сказать о машинном обучении или моделировании? Что можно сказать об обработке событий (данных) по мере поступления? Разве не прекрасно будет управлять всем этим с помощью единой системы?”.

Как и следовало ожидать, дискуссии по поводу YARN заняли большое место на посвященной Hadoop конференции. Добавление в него менеджера ресурсов корпоративного класса позволяет создавать многочисленные приложения из имеющихся на предприятии данных (“озера данных”, как выразился один докладчик).

Конечной целью компаний является слияние в рамках Hadoop их традиционных данных, представленных в виде строк и столбцов (которые, хотя и относятся к старой модели, по-прежнему имеют такую защиту, какая в Hadoop только разрабатывается), с быстро растущими в объеме данными из социальных сетей и от различных машин. Как пояснил один из выступавших, финансовые системы способны отслеживать продажи, а Hadoop — чувства покупателя, которыми сопровождаются продажи. Тандем двух систем станет крупным шагом в развитии корпоративного компьютинга.

Hadoop представляет собой проект с открытым исходным кодом, осуществляемый под эгидой фонда Apache Software Foundation. Помимо YARN у фонда имеются и другие амбициозные проекты, включая Knox, имеющий целью обеспечение безопасности. Hadoop 2.0 еще имеет статус бета-версии. Но благодаря своей открытости проект будет развиваться. Может быть, не столь быстро, как некоторым хотелось бы, но прозрачно.

Компания Hortonworks, выделившаяся в 2011 г. из Yahoo! и получившая недавно дополнительное финансирование в размере 50 млн. долл., является наиболее ярой сторонницей реализации Hadoop как совершенно “чистого” проекта с открытым исходным кодом. Сочетание новых функций Hadoop и увеличения числа приложений, которые могут дать клиентам стратегическое преимущество благодаря объединению новых и старых систем, способно стать фактором, заставляющим “неизменную треть” сказать: “давайте использовать эту очередную “большую вещь"”.