Технологии Hadoop, зарекомендовавшей себя как отличное средство для хранения и предварительной обработки больших данных, исполнилось 10 лет. За это время она получила заметное развитие, появились инструменты, упрощающие работу с Big Data, но по-прежнему узким местом является BI-обработка данных, накопленных в распределенном хранилище Hadoop. Обычно требуется сначала провести необходимую выборку, затем загрузить ее в Data Warehouse или OLAP-куб и только потом анализировать саму выборку. Важный шаг в решении этой задачи сделала калифорнийская компания AtScale, предлагающая ПО промежуточного слоя между Hadoop и любым стандартным инструментом BI-анализа.

Продукт AtScale Virtual Cube, как подсказывает само его название, формирует на промежуточном слое виртуальный OLAP-куб над Hadoop, к которому внешние приложения могут обращаться посредством стандартных языков SQL и MDX (Multidimensional Expressions). Решение включает в себя три основных компонента.

Design Center служит для проектирования OLAP-кубов, формирования связей между метаданными Hadoop и измерениями виртуального куба. Наряду с задачей проектирования схемы данных здесь также решаются вопросы политики доступа к тем или иным данным и безопасности. Поскольку Virtual Cube не хранит Big Data физически, серьезной проблемой является обеспечение приемлемого быстродействия. Для этого служит механизм интеллектуального кэширования Adaptive Cache, который дает возможность не только физически кэшировать недавние или часто используемые данные, но и, прогнозируя, какие данные вскоре потребуются, производить их предварительную выборку в кэш. Как утверждает вендор, такой подход позволяет за считанные секунды получать ответы на OLAP-запросы к кубу, содержащему 500 млрд. записей. И, наконец, третий важный компонент — Hybrid Query Service (HQS), обеспечивающий интерфейс доступа к виртуальному кубу посредством языков ANSI-SQL и MDX из любого BI-продукта.

AtScale не ограничивается только Hadoop: недавно в ее портфеле появились аналогичные средства для таких источников данных, как Teradata DW, Google Dataproc и BigQuery.

Версия для печати