«Ткань» данных (data fabric) предоставляет возможность отслеживать, контролировать и использовать данные, в то время как ИТ-архитектура отслеживает, контролирует и поддерживает ИТ-активы. И то, и другое необходимо для долгосрочной стратегии цифровизации, пишет на портале InformationWeek президент консалтинговой компании Transworld Data Мэри Шеклет.

По мере того как компании переходят к гибридным вычислениям, они пересматривают свои ИТ-архитектуры. ИТ-архитектура описывает всю базу ИТ-активов компании, как локальных, так и облачных. Эта архитектура подразделяется на три основных уровня: аппаратное обеспечение, такое как мэйнфреймы, серверы и т. д.; промежуточное ПО, которое включает в себя операционные системы, механизмы обработки транзакций и другие системные программные утилиты; а также ориентированные на пользователя приложения и сервисы, которые поддерживает эта базовая инфраструктура.

В последнее время в центре внимания ИТ-отделов была ИТ-архитектура, поскольку по мере перехода организаций в облако ИТ-активы также перемещаются, и существует необходимость отслеживать и контролировать эти изменения.

Однако с расширением цифровизации и применения аналитики также возникает необходимость отслеживать, контролировать и максимально эффективно использовать данные, которые могут поступать из множества источников. ИТ-архитектура не может обеспечить управление данными, а вот ткань данных может. К сожалению, большинство организаций не имеют четко определенной ткани данных, а многие все еще пытаются понять, зачем им вообще она нужна.

Что такое ткань данных?

Gartner определяет ткань данных как проектную концепцию слоя (ткани), интегрирующего данные и связующие процессы. Ткань данных использует непрерывную аналитику существующих, обнаруживаемых и привязанных метаданных для поддержки разработки, развертывания и использования интегрированных и многократно используемых данных во всех средах, включая гибридные и многооблачные платформы.

Каждая организация хочет использовать аналитику данных для повышения эффективности бизнеса. Для успешного использования аналитики необходима гибкость данных, которая позволяет легко соединять и объединять данные из любого источника, используемого компанией, независимо от того, является ли этот источник корпоративной унаследованной базой данных или данными, полученными из социальных сетей или Интернета вещей (IoT). Без использования инструментов интеграции данных невозможно достичь интеграции и связности данных, а для того чтобы аналитика работала, необходимо найти способ соединить и связать разрозненные данные друг с другом значимыми способами.

Именно здесь в дело вступает ткань данных. Она содержит все связи и отношения между данными организации, независимо от того, какого типа эти данные и откуда они взяты. Задача ткани — функционировать как общий «гобелен» данных, в котором все данные переплетаются и становятся доступными для поиска во всей их полноте. Это позволяет не только оптимизировать ценность данных, но и создать среду данных, способную ответить практически на любой аналитический запрос. Ткань данных делает то, что не может сделать ИТ-архитектура: она рассказывает, что делают данные и как они связаны друг с другом. Без ткани данных возможности компаний по использованию данных и аналитики ограничены.

Построение ткани данных

При создании ткани данных лучше всего начинать с малого и в знакомом сотрудникам месте. Для большинства компаний таким «местом» будут инструменты, которые они уже используют для извлечения, преобразования и загрузки (ETL) данных из одного источника в другой, а также любое другое ПО для интеграции данных, например, стандартные и заказные API. Все это — примеры интеграции данных, которой вы уже достигли.

Теперь вы хотите добавить больше данных в свое ядро. Вы можете сделать это, продолжая использовать ETL и другие методы интеграции данных, которые у вас уже есть, — по мере построения ткани данных. При этом следует позаботиться о добавлении метаданных о ваших данных, которые включают в себя точку происхождения данных, способ их создания, какие бизнес- и операционные процессы их используют, какова их форма (например, отдельное поле в фиксированной записи или целый файл изображения) и т. д. Сохраняя историю данных, а также все их преобразования, вы имеете больше возможностей для проверки данных на надежность и обеспечения их безопасности.

По мере роста вашей ткани данных вы, вероятно, будете добавлять инструменты для работы с данными, которых не хватает в вашем арсенале. Это могут быть инструменты, помогающие отслеживать данные, обмениваться метаданными, управлять данными и т. д. В этой области рекомендуется искать комплексное ПО для управления данными, которое содержит не только все необходимые инструменты для построения ткани данных, но и важные средства автоматизации, такие как встроенное машинное обучение.

МО наблюдает за тем, как данные работают вместе в вашей ткани данных, и какие комбинации данных используются чаще всего в различных деловых и операционных контекстах. Когда вы запрашиваете данные, MО помогает собрать вместе данные, которые с наибольшей вероятностью отвечают на ваши запросы.

Многим организациям сложно разрабатывать такие элементы ткани данных, как машинное обучение, с нуля. В этом случае помогает ПО для управления данными, поскольку оно обычно включает в себя уже автоматизированные встроенные средства МО, которые можно использовать в ткани данных.

Резюме

Разработка ткани данных может начинаться в небольших масштабах, например, для конкретной области бизнеса или сценария применения. В большинстве случаев ИТ-отдел может использовать инструменты интеграции данных, с которыми он уже знаком, вместе с системой управления данными, которая может автоматизировать многие функции построения ткани данных, с которыми ИТ-отдел знаком меньше.

Конечной целью должна быть ИТ-архитектура, которая расскажет вам, где находится каждый ИТ-актив и что он делает, и ткань данных, которая расскажет вам все, что вы хотите знать о данных в этой инфраструктуре.