Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Блог

Как прикрутить Hadoop к Excel-ю

Не задан ID пользователя.

22.08.201310:1922.08.2013 10:19:19

С помощью технологий, базирующихся на Hadoop, стало возможным формировать весьма сложные многомерные выборки данных на дешевом общедоступном железе, то есть бэкенд для бизнес-аналитики готов и массово доступен. А вот универсальные клиенты к этому не готовы.

[spoiler]Точнее, Микрософт в рамках соглашения с Hortonworks уже выпустила стыковщик Hadoop с Excel и PowerPivot, однако концептуальные минусы экселя никуда не делись.

Спасение появится уже в ближайшем сентябре: выйдет в исходниках система Retainable Evaluator Execution Framework (REEF) -- оригинальный фреймворк для работы с Большими данными, созданный в Microsoft. Он поддерживает грядущую версию Hadoop 2.0 и менеджер ресурсов YARN.

REEF можно очень условно считать облачным хранилищем. Например, программа-агент, захватив любые данные или выделив что-то важное в процессе раскопки, в реальном времени может их кинуть в REEF «на будущее» и продолжить основную работу. Обработка может вестись по самым разным источникам: SQL-NoSQL, MapReduce, потоковые данные, BI-движки или даже системы машинного обучения, генерирующие множество «сырой» информации. При этом для ряда конкретных задач (тех же BI, в частности), классический YARN подходит не очень хорошо - просто в силу своей универсальности. Как только в проекте появляются специфические требования к учёту накапливаемых сведений, желательна их особая обработка. Вот тут на помощь и придёт REEF. С технической точки зрения это набор библиотек разработчика, работающих поверх YARN. REEF создана в Microsoft Research и включает также Tang -- конфигурационный менеджер, и Wake -- поддержка классической модели событийной разработки. REEF языково-независима и может работать как в JVM, так и в .NET.
И вот уже поверх REEF вполне можно ставить Эксель.

Презентация системы:
http://research.microsoft.com/en-us/events/fs2013/raghu-ramakrishnan_bigdataplatforms.pdf

Резюме данного сериальчика: Excel как BI-клиент более-менее удовлетворительно годится для проектов СМБ и внутренних нужд ИТ-отделов. Для крупных лучше надо применять BI-продукты с собственными клиентскими приложениями. REEF поможет, но не сильно -- все равно нужны айтишники в помощь.

Темы конкретных BI-продуктов в крупных проектах я не буду касаться -- тут подразумевается «пропаганда» коммерческих систем, но то, что дозволено Микрософту или Гуглю

как единичным нарицательным компаниям, недозволено другим.

Кроме того, Excel не подходит для задач, где данные не реляционны, неструктурированы, представлены иерархически, в виде графов или документов, как принято в Hadoop/NoSQL-мире Больших данных, а именно это сегодняшний тренд (подробнее о нем завтра). И в то же время понятно, что Excel был, есть и будет у нас основной инструмент аналитики. Как минимум, в качестве микро-BI он сгодится очень неплохо. Но надо быть морально готовым к его существованию в новом мире Больших NoSQL-данных и хотя бы осознавать основные недостатки, не делая ставку только на него.

Не задан ID пользователя.

22.08.201310:1922.08.2013 10:19:19

Просмотров:3296 Комментариев:0

Теги: Excel, Business Intelligence, Hadoop