НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Куда растут корпоративные системы

Взрывной рост интереса к тяжелым технологиям за последние 1-2 года отмечают все аналитические компании. Забавно, что на этой волне в лидеры подчас выходят небольшие фирмы, составляя реальную конкуренцию, а то и опережая корпоративных гигантов от IBM и Microsoft до Oracle и SAP.

[spoiler]Компания Jaspersoft опубликовала Big Data Index, демонстрирующий, сколь активно скачиваются популярные "коннекторы", как их назвали организаторы, к Большим данным.
Под коннекторами подразумевается ПО промежуточного слоя, организующее эффективный и удобный доступ к Big Data, который традиционные системы предоставить не могут.
Всего за 2011-й год скачано 15 тыс. коннекторов, из которых несомненный лидер -- NoSQL СУБД MongoDB (рост на 200%). Далее следует Hadoop Hive (SQL-интерфейс к Hadoop MapReduce). Кстати, "Hadoop" стало уже фактически нарицательным названием, и в мире Больших данных это такой же знаковый символ, как SQL в мире РСУБД.

Начнем с Больших данных. Gartner предложила следующее определение правильной системы Big Data: разнообразие/вариативность, скорость, объем и сложность/полнота (variety, velocity, volume, complexity). Если данные собираются из единичных схожих источников, обрабатываются медленно, объем их относительно невелик, а структура достаточно тривиальна (хотя бы одно из этих утверждений истинно), значит, система претендовать на почетное звание обработчика Больших данных не может. Что интересно, традиционные и хорошо известные решения крупнейших ИТ-гигантов как правило не реализуют как минимум одно из данных требований. Например, не способны обрабатывать иерархически организованные данные петабайтных объемов, или делают это медленно.

Jaspersoft предлагает собственные свободные пакеты работы с Big Data, которые хостятся на портале http://jasperforge.org/. Она отмечает следующие важные прикладные моменты подобных систем: возможность организации отчетности и аналитики в реальном времени и пакетный режим подготовки сложных отчетов через прямой доступ к Большим данным (без промежуточной конвертации, чем страдают системы на классических РСУБД) и пакетный ETL-режим для выгрузки данных в центральное хранилище.

ETL (Extract, Transform, Load) -- следующий важнейший пункт в развитии современных корпоративных систем. Несмотря на рост интереса к Большим данным число ETL-провайдеров отнюдь не выросло, столь сложны эти технологии в реализации. Более того, с ETL связан еще один парадокс, который отметил Forrester в своем отчете "Forrester Wave: Enterprise ETL Q1 2012". Производители ETL-систем удаляют аббревиатуру ETL из названий своих продуктов, но не потому, что ETL теряет актуальность, а наоборот -- становится жизненно важной, и бессмысленно говорить об этом отдельно.

Forrester тут отмечает переход от стандартных ETL-решений к полноценным платформам интеграции данных: "heavy lifting of data from transactional systems to operational data stores, data warehouses, BI platforms, MDM hubs, the cloud, and Hadoop platforms" (обратите внимание на контекст словечка Hadoop).
Вот что такое экс-ETL сегодня:
- виртуализация (перенос данных на единый виртуальный уровень через интеграцию гетерогенных источников);
- облачные вычисления, где ETL-движок обеспечивает непрерывную загрузку и выгрузку данных;
- MDM (управление основными/мастер-данными) --- трансляция объемных данных из разных источников в пакетном режиме в MDM-фреймворк;
- хранилища реального времени;
- накопление информации в упомянутой выше спецификации Больших данных.

Еще одним заметным игроком на этом рынке, кстати, вместе с Jaspersoft становится Pentaho со своей одноименной свободной платформой на базе NoSQL-СУБД Cassandra.
Приятно, что в конце 2011-го одна из известных российских компаний стала золотым партнером Pentaho.
Андрей Губанов
"Pentaho ... использует в качестве источника данных любые СУБД" (http://ru.wikipedia.org/wiki/Pentaho)
Сергей Бобровский
Имеется в виду "first Cassandra-based big data analytics solution".