Интеграция данных является одной из самых сложных задач в области бизнес-аналитики (BI) — ее достижение является технически и организационно сложным, в то время как ее важность постоянно возрастает, отмечают опрошенные порталом ComputerWeekly аналитики.

Интеграция данных — это, пожалуй, одна из самых актуальных задач в области BI и анализа данных на сегодняшний день. Организации имеют дело с постоянно растущим объемом данных, с которыми они работают. Команды аналитиков находятся под давлением необходимости более быстрого предоставления информации и инсайтов для бизнеса, а также охвата более широкого спектра источников данных.

Зачастую современные источники данных не связаны между собой, используют различные классификации данных, предоставляются с разной скоростью и сильно отличаются по качеству. Тем не менее, специалисты по анализу данных и аналитики организаций должны объединить эти источники таким образом, чтобы бизнес-пользователи могли сформировать последовательную, точную картину данных, которая поможет принимать более эффективные решения.

Объем данных и скорость их генерации таковы, что ручная интеграция практически невозможна, за исключением самых маленьких проектов и прототипов. Поэтому компании ищут процессы, которые очищают и интегрируют наборы данных, прежде чем передавать их в инструменты анализа, BI или даже машинного обучения. Но даже в этом случае остается проблема существования в организации различных команд, использующих наборы данных, которые обрабатываются разрозненными, но часто пересекающимися инструментами интеграции.

Несмотря на наличие различных подходов к интеграции, включая репликацию, синхронизацию и виртуализацию данных, рынок только сейчас начинает двигаться в сторону технологий, способных удовлетворить все потребности предприятия в интеграции данных в одном месте.

«Самая важная причина интеграции данных и одна из основных причин, по которой люди не справляются с инициативами по анализу данных, заключается в том, что они не интегрируют свои данные», — считает Эхтишам Заиди, аналитик Gartner по управлению данными. Несмотря на трудности, такая интеграция жизненно необходима, если организации собираются окупить свои инвестиции в сбор, хранение и управление данными.

Интеграция данных и бизнес-цели

Как отмечает Заиди, обмен данными внутри и за пределами предприятия становится все более важным. Также как и необходимость сбора и анализа операционных и транзакционных данных, а также поддержка новых инструментов, таких как машинное обучение и искусственный интеллект.

Компании стали собирать все бóльшие объемы данных из своих транзакционных систем, приложений «ПО как услуга» (SaaS), электронной коммерции, социальных сетей, датчиков и Интернета вещей (IoT). По данным Statista, в 2010 г. глобальный объем созданных данных составлял 2 Зб, а через 10 лет — 64 Зб; в 2025-м он может составить 181 Зб.

Большая часть этих данных в основном статична, например, архивная информация и резервные копии. Как отмечает Statista, быстрый рост объемов данных во время пандемии был вызван, в частности, необходимостью для сотрудников копировать файлы, чтобы они могли работать дома.

Но при этом остается огромное количество «живых» данных, которые организации хотят обрабатывать в своих системах BI, предиктивной аналитики и других инструментах анализа, а также данных, сохраняемых в нормативных целях.

Предприятия всех отраслей говорят о том, что они «управляются данными» («data driven»,), независимо от того, производят ли они реактивные двигатели или скромную пиццу. Для мониторинга производительности реактивных двигателей Rolls-Royce использует систему, основанную в основном на облачных сервисах Microsoft Azure. Domino’s Pizza применяет для интеграции около 85 тыс. источников данных ПО Talend.

«Интеграция данных — это способность собирать и преобразовывать данные из различных источников и объединять их для получения инсайтов», — говорит Мишель Гетц, аналитик Forrester по управлению данными и бизнес-аналитике. Объединение источников данных позволяет компаниям рассматривать свою деятельность с разных сторон, будь то привлечение клиентов или бизнес-процессы, и делать это быстрее, чем когда-либо.

«Возможность сбора данных из нескольких точек чрезвычайно важна, — отмечает она. — Если не собирать данные из нескольких источников, не интегрировать и не рационализировать эти данные, в вашем бизнесе появляется множество „слепых пятен“. Это влияет на способность принимать решения».

Создание полной картины означает наличие точных, чистых и совместимых данных. Но если организации хотят использовать все преимущества своих данных, им необходимо своевременно интегрировать их. Гетц приравнивает по значимости эту «свежесть» к точности — данные должны быть одновременно актуальными и своевременными. А это означает автоматизацию интеграции данных.

Практика интеграции данных

Традиционным и до сих пор распространенным способом интеграции данных является ETL — извлечение, преобразование и загрузка. Здесь данные поступают из разрозненных систем, преобразуются — при необходимости очищаются и приводятся к общей таксономии данных — и затем загружаются в следующую систему. Это может быть база данных, хранилище данных или BI-приложение.

Но этот подход не справляется с растущим количеством источников данных и необходимостью все более быстрого реагирования.

«Представление „пока я могу собирать данные в хранилище данных, оно будет удовлетворять 80-90% моих потребностей“ больше не является жизнеспособным, если вы пытаетесь соответствовать требованиям, которые меняются с каждой секундой», — говорит Гетц.

Данные рискуют потерять свою свежесть и актуальность. Вместо рабочего инструмента для бизнеса традиционные подходы рискуют создать «музей данных» — полезный, возможно, для просмотра прошлых показателей, но не для анализа в режиме реального времени или прогнозирования.

ETL по-прежнему играет определенную роль в рабочих процессах, которые допускают пакетную обработку или могут выполняться в течение ночи. Однако, по словам Заиди, ETL нужно дополнять тем, что он называет «более современными способами интеграции данных». Это репликация, синхронизация и виртуализация данных.

Эти подходы позволяют аналитикам обрабатывать данные без необходимости их перемещения, ускоряя процесс, сокращая повторную обработку и обеспечивая бóльшую гибкость. Кроме того, организациям может потребоваться работа с потоковыми данными, и более современные инструменты позволят интегрировать данные о событиях или журналы.

Какой бы подход ни применялся, цель состоит в том, чтобы один раз создать набор данных, который можно использовать много раз, без переформатирования или загрузки в новую систему. В свою очередь, это породило собственную проблему — разрастание инструментов интеграции данных.

Однако есть признаки того, что рынок начинает консолидироваться.

Интеграция данных: зрелость и консолидация

Ситуация с интеграцией данных может показаться парадоксальной. Она объединяет разрозненные источники данных и ИТ-системы, но различные подходы к интеграции привели к разрастанию разрозненных и часто несовместимых инструментов.

Gartner, например, утверждает, что «на крупных предприятиях разные команды используют разные инструменты, при этом они мало согласованы, часто дублированы и избыточны, при этом нет общего управления или использования метаданных».

Майк Фергюсон, управляющий директор Intelligent Business Strategies, так описывает эту проблему. «Если вы создали что-то в одном инструменте, я не могу взять это и запустить в другом инструменте. А если вы являетесь глобальной организацией, то ваши бизнес-подразделения, которые достаточно автономны, берут и покупают свои собственные наборы инструментов. Поэтому крупные организации в итоге имеют целый ряд различных инструментов».

Поставщики пытаются решить эту проблему путем консолидации рынка. Те, кто наиболее известен технологиями ETL и хранилищ данных, расширяют свои наборы продуктов, включая в них репликацию, синхронизацию и виртуализацию.

Для компаний, у которых есть время и ноу-хау для создания собственных интеграционных платформ, вариантом является Open Source. Но Заиди говорит, что в этом редко возникает необходимость: «Рынок инструментов для конечных пользователей стал более зрелым. Есть зрелые поставщики, предоставляющие проверенные в деле инструменты. Все они могут работать с этими новыми способами интеграции». На этом рынке присутствуют такие компании, как Confluent, Informatica, Talend, Tibco, а также лидеры ИТ-индустрии IBM и Oracle, и это лишь некоторые из них.

Фирмы могут инвестировать в готовые инструменты интеграции и передавать анализ данных в руки бизнес-пользователей и специалистов по анализу данных, а не ИТ-команд или разработчиков. Но даже с улучшенным и более интегрированным набором инструментов проблемы остаются.

Интеграция данных: не только программные инструменты

Одни только программные инструменты не решат всех проблем, возникающих при интеграции данных.

Компании, стремящиеся максимально повысить ценность своих бизнес-данных, должны по-прежнему обеспечивать качество и целостность данных, последовательное и своевременное поступление данных в приложения BI и аналитики, а также быть уверенными в том, что бизнес-лидеры будут действовать в соответствии с полученными от этих приложений инсайтами. Для этого им необходимы навыки, которые по-прежнему в дефиците.

«Качество данных по-прежнему является серьезной проблемой, — отмечает Фергюсон. — А поскольку источников данных становится все больше и больше, она становится практически бесконечной».

Существуют также проблемы управления, поскольку данные хранятся во все большем количестве мест и в большем количестве форматов. «Управлять данными стало гораздо сложнее, чем раньше, потому что сейчас у нас так много источников», — говорит он.

Извлекать ценность из своих данных компаниям помогает интеллектуальная интеграция, и, как отмечает Фергюсон, автоматизация помогает решить проблему дефицита навыков или, по крайней мере, дает возможность бизнес-пользователям, которые не являются специалистами по работе с данными, начать объединять источники данных для анализа.

«Речь идет об ускорении развития за счет увеличения числа людей, способных управлять данными, и снижении планки квалификации за счет автоматизации», — говорит он.

Инструменты также должны обеспечивать лучшую видимость активов данных. Однако сами по себе они не смогут решить проблемы качества данных или управления ими. Необходимы также политика управления основными данными, мощные возможности науки о данных и, возможно, директор по данным (CDO) с местом в совете директоров.

«В прошлом вы могли разместить все данные в одном месте. У вас были системы, которые позволяли вам точно знать, что существует ограниченное количество информации, которая вам нужна, и именно ее вы собираетесь собирать и использовать, — говорит Гетц. — Сегодня, благодаря тому, что мы ведем наш бизнес через цифровые экосистемы, вы должны быть гораздо более гибкими и адаптироваться к тому, что вам придется выяснять, какие данные вам нужны, где эти данные находятся и как их лучше всего интегрировать, в нужное время, в нужной свежести, чтобы информация была актуальной».