Открывая очередной, уже 12-й форум Informatica Day, генеральный директор фирмы DIS Group, мастер-дистрибьютора компании Informatica, Павел Лихницкий заявил, что так называемый Data Driven бизнес или бизнес, основной движущей силой которого являются данные, сегодня становится общей практикой для множества предприятий самых разных отраслей. Более того, управление данными в широком смысле слова лежит в основе набирающей популярность цифровой трансформации бизнеса.

Прошедший в конце мая форум стал одним из этапов глобального мирового турне Informatica World Tour 2017. Выступивший в Москве вице-президент Informatica по региону EMEA South, EE, MEA & LATAM Эмилио Вальдес отметил, что хотя цифровая трансформация означает появление новых бизнес-моделей, бизнес-процессов, новых приложений, новой инфраструктуры и вовлечение новых пользователей, основой для всего этого являются данные. Предложенная Informatica концепция Data 3.0 рассматривает данные именно в контексте цифровой трансформации. Ее необходимость диктуется тем, что по оценкам экспертов к 2020 г. объем данных, ежегодно обрабатываемых дата-центрами достигнет отметки 15,3 Зб, число бизнес-пользователей превысит 325 млн., количество подключенных к Сети устройств достигнет 20 млрд., заметно расширится спектр типов данных, 92% трафика данных в ЦОДах придется на облака, а на помощь миллиарду работников придет искусственный интеллект.

Для реализации указанной концепции Informatica предлагает новую архитектуру управления данными, включающую три слоя: внизу — Intelligent Data Platform от Informatica, обеспечивающая базовые функции (контроль корпоративных метаданных, мониторинг и администрирование, вычислительную обработку, подключение к источникам), выше — продукты (поддержка больших данных, интеграция, управление облачными данными, управление качеством, безопасность), поставщиками которых могут быть наряду с Informatica и другие вендоры, и на самом верху — решения для применения в тех или иных отраслях и для решения узких задач (управление данными о клиентах, продуктах, поставщиках и т. д.).

По мнению директора Informatica по региону Восточной Европы и России Массимо Миаццетто, DIS Group обладает всеми необходимыми компетенциями для того, чтобы опираясь на сеть локальных партнеров по сути выполнять функции местного представительства. Об успешности деятельности DIS Group можно судить по ряду проектов, представленных на конференции.

Об одном из них — развертывании корпоративного хранилища данных в компании Tele2 рассказала руководитель департамента развития систем машинного обучения и бизнес-анализа телеком-оператора Ника Пономарева. Главными целями проекта были повышение эффективности кампаний целевого маркетинга и более точный расчет целевых KPI, используемых при принятии ответственных решений. При этом каждый KPI должен детализироваться до самого нижнего уровня, например, до звонка одного клиента. Данные из разных источников, включая биллинг, и агрегированные на их основе показатели с помощью инструментов Informatica загружаются в СУБД HP Vertica, Oracle, Teradata и распределенное хранилище Hadoop. Для их анализа и презентации результатов применяется ПО SAS Visual Analytics.

Руководитель отдела компании «Тинькофф Страхование» Иван Воронич поделился опытом использования инструментов Informatica для построения и эксплуатации хранилищ и витрин данных, применяемых как для генерации отчетности, так и для обработки произвольных аналитических запросов. В частности, страховщику удалось построить удобный Ad hoc ETL-инструмент, с помощью которого рядовые бизнес-пользователи могут легко проектировать сценарии извлечения/трансформации/загрузки данных и формировать на их основе собственные витрины данных.

Но пожалуй, наибольший интерес вызвало сообщение о продолжающемся развитии платформы обработки данных в проекте по созданию «Фабрики данных» в Сбербанке, сделанное директором центра компетенции развития BI-технологий банка Борисом Рабиновичем. Необходимость построения такой мощной платформы он связывает с лавинообразным ростом объемов накапливаемой и обрабатываемой банком информации. Так, на 2017 г. прогнозируется ежедневный прирост объема сырых данных около 78 Тб, что в расчете на год составит 28 Пб. Из них около 1 Пб будет загружено в хранилище на базе Teradata. Но поскольку стоимость хранения и обработки в расчете на 1 Тб на платформе Teradata в десятки раз дороже, чем в распределенной инфраструктуре Hadoop, большая часть собираемой информации будет размещаться в Hadoop. К концу 2017 г. эта инфраструктура будет включать 450 серверных узлов (всего 14 400 процессорных ядер, 230 Тб ОЗУ и 9 Пб дискового пространства). В течение нынешнего года в нее планируется загрузить данные из 71 источника. Продолжается выбор ключевых архитектурных элементов платформы, и с этой целью запланировано 26 пилотных проектов.

«Фабрика данных», консолидирующая данные из различных источников, призвана повысить качество исходной информации и ее доступность для анализа. Данные из внутренних и внешних источников (структурированные и неструктурированные) интегрируются с применением GridGain In-Memory Data Fabric и загружаются в распределенное хранилище Hadoop. За интеграцию всех указанных источников и хранилищ отвечают продукты компании Informatica. Часть последующей обработки осуществляется непосредственно в Hadoop, а то, что требует дополнительных инструментов, выгружается в те или иные витрины данных. Борис Рабинович отметил любопытную деталь: в Сбербанке появились должности директора по данным (Chief Data Officer) и директора по их глубокому изучению (Chief Data Scientist).