НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Как прикрутить Hadoop к Excel-ю

С помощью технологий, базирующихся на Hadoop, стало возможным формировать весьма сложные многомерные выборки данных на дешевом общедоступном железе, то есть бэкенд для бизнес-аналитики готов и массово доступен. А вот универсальные клиенты к этому не готовы.

[spoiler]Точнее, Микрософт в рамках соглашения с Hortonworks уже выпустила стыковщик Hadoop с Excel и PowerPivot, однако концептуальные минусы экселя никуда не делись.

Спасение появится уже в ближайшем сентябре: выйдет в исходниках система Retainable Evaluator Execution Framework (REEF) -- оригинальный фреймворк для работы с Большими данными, созданный в Microsoft. Он поддерживает грядущую версию Hadoop 2.0 и менеджер ресурсов YARN.

REEF можно очень условно считать облачным хранилищем. Например, программа-агент, захватив любые данные или выделив что-то важное в процессе раскопки, в реальном времени может их кинуть в REEF «на будущее» и продолжить основную работу. Обработка может вестись по самым разным источникам: SQL-NoSQL, MapReduce, потоковые данные, BI-движки или даже системы машинного обучения, генерирующие множество «сырой» информации. При этом для ряда конкретных задач (тех же BI, в частности), классический YARN подходит не очень хорошо - просто в силу своей универсальности. Как только в проекте появляются специфические требования к учёту накапливаемых сведений, желательна их особая обработка. Вот тут на помощь и придёт REEF. С технической точки зрения это набор библиотек разработчика, работающих поверх YARN. REEF создана в Microsoft Research и включает также Tang -- конфигурационный менеджер, и Wake -- поддержка классической модели событийной разработки. REEF языково-независима и может работать как в JVM, так и в .NET.
И вот уже поверх REEF вполне можно ставить Эксель.

Презентация системы:
http://research.microsoft.com/en-us/events/fs2013/raghu-ramakrishnan_bigdataplatforms.pdf

Резюме данного сериальчика: Excel как BI-клиент более-менее удовлетворительно годится для проектов СМБ и внутренних нужд ИТ-отделов. Для крупных лучше надо применять BI-продукты с собственными клиентскими приложениями. REEF поможет, но не сильно -- все равно нужны айтишники в помощь.

Темы конкретных BI-продуктов в крупных проектах я не буду касаться -- тут подразумевается «пропаганда» коммерческих систем, но то, что дозволено Микрософту или Гуглю :) как единичным нарицательным компаниям, недозволено другим.

Кроме того, Excel не подходит для задач, где данные не реляционны, неструктурированы, представлены иерархически, в виде графов или документов, как принято в Hadoop/NoSQL-мире Больших данных, а именно это сегодняшний тренд (подробнее о нем завтра). И в то же время понятно, что Excel был, есть и будет у нас основной инструмент аналитики. Как минимум, в качестве микро-BI он сгодится очень неплохо. Но надо быть морально готовым к его существованию в новом мире Больших NoSQL-данных и хотя бы осознавать основные недостатки, не делая ставку только на него.