Компания DIS Group представила платформу данных Селена — современное российское решение класса Data Lakehouse, предназначенное для высокоскоростной обработки и анализа больших объемов структурированных и неструктурированных данных. Платформа позволяет обрабатывать запросы в 10 раз быстрее аналогов благодаря использованию векторных вычислений и MPP-архитектуры.
Платформа Селена сочетает в себе преимущества традиционных хранилищ данных и современных Data Lakehouse, обеспечивая большую скорость аналитической обработки информации. Благодаря использованию передовых технологий векторных вычислений и массово-параллельной архитектуры (MPP), система демонстрирует десятикратное превосходство в скорости выполнения запросов по сравнению с аналогичными предложениями на рынке.
Платформа предназначена для обработки как небольших, так и экстремально больших объемов информации, включая хранение и анализ информации свыше 100 петабайт. Архитектурное решение позволяет развертывать систему как в облачной инфраструктуре, так и в рамках локальных дата-центров, что обеспечивает гибкость при внедрении в различных отраслях.
Особое внимание разработчики уделили совместимости с современными стандартами хранения данных. Платформа поддерживает работу с любыми объектными хранилищами, совместимыми с S3-протоколом, включая популярные решения MinIO и Ceph, а также отечественную платформу «Закрома». Наряду с этим сохраняется возможность интеграции с распределенной файловой системой HDFS, что позволяет использовать Селену в уже существующих Hadoop-инфраструктурах.
В основе платформы лежит высокопроизводительный движок StarRocks, который обеспечивает стабильную работу даже при экстремальных нагрузках. Система демонстрирует особую эффективность при выполнении сложных аналитических запросов в условиях высокой конкуренции за вычислительные ресурсы. Это делает решение особенно востребованным в таких сферах, как финансовая аналитика, промышленный интернет вещей (IIoT), телекоммуникации и государственный сектор.
Для обеспечения максимальной скорости доступа к данным в Селене реализована комбинация передовых технологий обработки информации. Колоночная организация хранения данных в сочетании с многоуровневой системой кэширования (включая кэширование запросов, промежуточных результатов и готовых отчетов) позволяет минимизировать время отклика системы. Дополнительное ускорение достигается за счет использования cost-based оптимизатора запросов, материализованных представлений и специализированных агрегационных таблиц.
Интеграция искусственного интеллекта посредством реализации MCP-сервера позволяет пользователям формулировать запросы к базе данных на естественном языке, автоматизировать создание блокнотов и взаимодействовать с хранилищем в формате чата.
Селена совместима с популярными BI-инструментами и аналитическими платформами, такими как Tableau, Apache Superset, Power BI, Luxms BI, FineBI, PIX BI, «Форсайт», «Навигатор BI» и др. В текущем году планируется начать процесс сертификации платформы в ФСТЭК России, что откроет новые возможности для внедрения решения в государственных структурах и организациях с повышенными требованиями к информационной безопасности.
Разработчиком одноименной платформы является российская компания «Платформа данных Селена», созданная в 2024 году. Мастер-дистрибьютором продукта Селена является компания DIS Group. Продукты DIS Group образуют экосистему Платформа IDP, включающую, помимо Селены, решения для управления бизнес-глоссарием и каталогом данных (Юниверс DG), работы с мастер-данными (Юниверс MDM), ETL/ELT-процессами (ФормИТ), контроля качества данных (ФормИТ DQ) и другие компоненты.
Дмитрий Замула, технический директор Селена, отметил: «Современный рынок больших данных требует решений, способных обеспечивать аналитику в реальном времени на постоянно растущих объемах информации. Селена создавалась именно как ответ на этот вызов. Мы не просто увеличили скорость обработки данных, но и обеспечили необходимую гибкость развертывания, что особенно важно для крупных предприятий с распределенной инфраструктурой».
Олег Гиацинтов, технический директор DIS Group, прокомментировал: «Data Lakehouse — логичное и мощное развитие Data Lake и традиционных хранилищ: с одной стороны, сохраняется способность обрабатывать большие объемы разнородных данных, с другой — добавляется высокая скорость, благодаря улучшенной работе с метаданными и индексацией. Это кардинально повышает эффективность работы аналитиков и дата-сайентистов. Интеграция искусственного интеллекта в Data Lakehouse обеспечивает удобный доступ к данным и возможность взаимодействия с ними на естественном языке. Все это сделает Data Lakehouse стандартом для аналитики в ближайшем будущем. На российском рынке практически нет решений по контролю качества данных, способных полноценно работать с Lakehouse. DIS Group и Селена — среди первых, кто решает эту проблему».