Преимущества Data Fabric по сравнению с традиционным подходом
Если посмотреть на определения «ткани данных» (Data Fabric) и инфраструктуры СХД, то ткань данных — это в первую очередь автономная экосистема, она используется для максимально эффективного доступа к корпоративным данным, обеспечивает легкий поиск, обработку, структурированность и интегрированность информации с другими информационными системами. Основное предпочтение в Data Fabric отдается облачным решениям, информационные потоки оркестрируются, а качество информации повышается после унификации и виртуализации. Дополнительно, помимо легкого доступа к данным, обеспечивается безопасность этого доступа для каждой из групп пользователей.
При этом традиционная инфраструктура СХД — комплексное программно-аппаратное решение по организации надёжного хранения информационных ресурсов и предоставления гарантированного доступа к ним.
Уже из определений видно различие, по сути СХД является одной из составных частей ткани данных и служит источником данных и ресурсов. СХД с программной точки зрения чаще всего представлена набором информационных систем, и их данные чаще всего не интегрированы. Data Fabric — более интеллектуальное развитие на основе науки о данных. Здесь присутствует анализ данных, интеграция данных различных систем, применение машинного обучения, наличие стандартизированного набора API для быстрого и легкого доступа к данным, микросервисная архитектура, гибкость и быстрая организация реагирования на любые изменения в данных.
Основная проблема и недостижимая задача при обычном (СХД) подходе к управлению данными — невозможность получить единое пространство интегрированных данных различных систем с быстрым и легким доступом. Data Fabric позволяет решить эту задачу.
Основные драйверы развития концепции ткани данных
Современные компании уже накопили большой объем как структурированных, так и неструктурированных данных, для неструктурированных данных часто используются озера данных (Data Lake). Цель организации не только собирать и хранить информацию, а извлекать из собранной информации «скрытые возможности» (инсайты) и знания, полезные для развития бизнеса предприятия, оптимизации процессов. Но эту информацию непросто искать, анализировать и интегрировать с другими наборами данных. Это усложняет аналитику больших данных, снижая ценность информации. В свою очередь, интерактивная аналитика и когнитивные вычисления, в том числе и с помощью методов машинного обучения, требуют высокой скорости доступа к информации, хранящейся в озере данных. Таким образом, основными драйверами развития концепции Data Fabric стали потребности предприятий в быстрой аналитике Big Data и необходимость распространения BI-подхода на все информационные активы предприятия.
Корпоративные озера данных на базе Apache Hadoop отлично справляются с хранением множества разрозненных и разноформатных данных. Но из-за неструктурированности данной информации с ней очень тяжело работать. И тут как раз на помощь приходят технологии машинного обучения, Data Fabric подразумевает использование алгоритмов МО на каждом этапе работы с информацией: от сбора и очистки данных до оптимизации сценариев их использования.
Как применять технологии искусственного интеллекта
Применение той или иной технологии машинного обучения сильно зависит от типов данных предприятия, это может быть анализ изображений с помощью нейросетей и алгоритмов, синтаксический разбор текста, прогнозирование аварий на ключевых узлах предприятий, да и просто промежуточное получение ключевых особенностей данных для дальнейшего анализа. Здесь важно понимать, насколько оправдано применение технологий ИИ, как показала моя практика, лучший вариант — это симбиоз работы ИИ и математической модели, которые вместе позволяют получить достаточно хороший и устойчивый результат.
Как построить Data Fabric
За основу построения ткани данных на предприятии нужно взять принципы этой концепции и следовать им. Во-первых, использовать алгоритмы МО на каждом этапе работы с информацией, где оправдано их использование. Во-вторых, должна присутствовать сквозная интеграция всех источников и потребителей информации, в том числе файловых хранилищ, СУБД и озер данных в единое информационное пространство с помощью API. Важно не забывать про микросервисную архитектуру вместо монолитных продуктов. Кроме того, нельзя забывать про преобладание облачных решений в корпоративном ИТ-ландшафте, оркестрацию информационных потоков, виртуализацию, унификацию и повышение качества данных. Должна быть обеспечена быстрота доступа к разнородным данным, в том числе из локальных и облачных СУБД, файловых хранилищ, корпоративных озер данных и пр. и безопасный многопользовательский режим работы с информацией с гибкой настройкой прав доступа к данным для каждого пользователя.
Начинать построение Data Fabric можно с любым набором программных продуктов, которые реализуют технологии хранения данных (как структурированных, так и неструктурированных) и желательно интерфейсы доступа к этим данным. Все остальные технологии внедряются и применяются в процессе разработки.
«Строители» Data Fabric — кто они?
Для развертывания Data Fabric, а также создания непрерывных конвейеров автоматического сбора и обработки информационных пакетов и потоков необходимы совместные усилия всех профильных ИТ-специалистов. Потребуется целая команда администраторов озер данных, локальных и облачных кластеров, разработчиков распределенных приложений, инженеров и аналитиков данных, а также специалистов по методам МО и ИИ.