Сетка данных (data mesh) позволяет использовать децентрализованный подход к управлению данными, значительно повышая производительность и возможности извлечения инсайтов, пишет на портале eWeek Ори Решеф, вице-президент по продуктам компании Varada.

Сетка данных — это децентрализованный подход к управлению данными, при котором сами данные остаются в пределах бизнес-области, в которой они собираются. Однако технология data mesh позволяет сделать эти данные доступными для квалифицированных пользователей в разных местах, без необходимости перемещать или загружать данные из их текущего местоположения.

Сетка данных — это явно не изолированная система. Действительно, она занимает центральное место в усилиях по широкому распространению данных в рамках цифровой трансформации. SQL-клиенты всей организации могут обращаться к данным с помощью распределенного механизма запросов. Этот механизм располагается поверх частных когерентных бизнес-данных, позволяя получать к ним доступ и унифицировать их для обеспечения совместимости, а не хранить их централизованно.

Другими словами, сетка данных демократизирует данные. Она создает «наборы данных как продукт», стандартизированное предложение, доступное для всех, у кого есть разрешение. Это безопасно, соответствует местным нормативным требованиям и неожиданно масштабируемо.

Короче говоря, при использовании архитектуры сетки данных пользователи бизнес-доменов поднимаются на вершину списка приоритетов. Она позволяет им самим принимать решения о том, какими могут быть данные, а какими нет, и освобождает их от дорогостоящих инфраструктурных ограничений, которые блокируют доступ организации к мудрости, накопленной во всех ее данных.

Потенциал и проблемы сетки данных

Вот прогноз: к 2025 г. те из нас, кто живет в постоянно меняющемся мире агрегации и транспортировки данных, ETL, хранения и доступности данных, бизнес-аналитики будут смотреть на сетку данных примерно так же, как мы сегодня смотрим на облачные вычисления. Это стратегия, которая одновременно сокращает накладные расходы (время и деньги), уменьшает объем тяжелой работы (обслуживание, обновление, резервное копирование) и предоставляет конечному пользователю возможности, которых раньше не существовало.

Одним словом, сетка данных — это технологическая эволюция, технические и деловые преимущества которой делают ее очевидной и неизбежной. Какие проблемы призвана решить эта развивающаяся парадигма?

Слишком много данных из слишком многих источников

Цунами данных, захлестнувшее предприятия в процессе полной цифровой трансформации, просто ошеломляет. Данные поступают динамично, на глобальном уровне, с такой степенью детализации, о которой раньше и не помышляли.

И если исторические финансовые/операционные данные всегда использовались в качестве аналитического инструмента для принятия бизнес-решений руководством, то сейчас мы видим, как BI предоставляет для команд маркетинга, продаж и разработки продуктов судьбоносные инсайты, основанные на нескончаемых транзакционных данных. Эти команды, работающие с клиентами, наконец-то могут мгновенно узнавать, что работает, а что нет, на основе каждого действия, совершенного клиентами. Это необыкновенная возможность, но объемы данных, с которыми им нужно работать, трудно собирать, хранить, запрашивать и управлять.

Озера данных

Никто не будет спорить с тем, что разрозненные данные — это плохо, и неудивтельно, что появились сотни стартапов, предлагающих решения для разрушения этих замкнутых пространств. Но если в последнее десятилетие целью было объединение источников данных в единый репозиторий для получения «единого источника правды», то теперь такой репозиторий вдруг — что удивительно — кажется вчерашней стратегией. Почему? Потому что он вводит ряд ограничений, в то время как этот огромный единый источник разрастается день ото дня.

Сетка данных помогает решить эту проблему, ослабляя замкнутость, присущую изолированному хранилищу. Она помогает данным стать доступными для экспертов всей организации.

Крупномасштабное управление корпоративными данными

Очевидно, что такое управление сопряжено с трудностями. В частности, сложно интегрировать живые, текущие данные со статическими или историческими.

Перенос данных из периферийных источников в озеро данных и обратно — и управление их хранением после поступления — отнимает много времени и ресурсов и обходится очень дорого. Узкие места возникают все чаще, а гибкость бизнеса снижается.

Единую, агрегированную коллекцию данных может быть сложно привести в соответствие с требованиям законодательства о хранении и конфиденциальности данных, которые варьируются от страны к стране, а то же время управление данными географически разнообразно, а аппаратное обеспечение — нет.

И наконец — и это часто самая болезненная особенность раздутого озера данных — в реальности накладные расходы на запросы не масштабируются. По мере того, как все большему числу пользователей необходимо запрашивать одну и ту же базу данных, добавлять источники или манипулировать имеющимися данными, время отклика замедляется. Конечно, это при условии, что озеро данных включает в себя настоящую виртуализацию данных, позволяющую всем, кто имеет разрешение, подключаться к любому источнику данных или платформе, а это, согласно нашему недавнему опросу, является важной проблемой.

Короче говоря, класть все яйца в одну корзину довольно привлекательно, но это будет тяжелая корзина, которую трудно нести... или найти в ней нужное яйцо. Поэтому стоит рассмотреть сетку данных. Она сохраняет преимущества централизованного, стандартизированного озера данных, но при этом обеспечивает масштабируемость и доступ к ним. Вы можете назвать это «распределенным озером данных».

Сетка данных и расширение возможностей людей

Сетка данных предлагает автоматизированную, комплексную, мгновенную аналитику в масштабе. Специалисты по исследованию данных — и потребители данных с меньшим опытом и подготовкой — теперь смогут получать доступ к бизнес-данным, чтобы проводить собственный анализ, ориентированный на потребности бизнеса.

Эта стратегия самообслуживания с единой точкой контроля доступа впервые представляет собой план управления данными, ориентированный на людей; более быстрый и эффективный способ получать ответы, не обременяя команду DevOps, которая может быть малодоступна.

Жамак Дехгани, директор по новым технологиям Thoughtworks, которой приписывают создание этой парадигмы, называет ее гибридной: «децентрализованный социотехнический подход — связанный с организационным дизайном и технической архитектурой».

Доступ способствует извлечению инсайтов

Сетка данных также является в некотором смысле следующим этапом модели «кто угодно и где угодно», к которой мы привыкли благодаря облачным вычислениям и виртуализации данных.

Собственные приложения и инструменты доступа бизнес-домена обычно разрабатываются для его пользователей и их конкретных потребностей. В идеальной ситуации данные локальны, поэтому задержки минимальны. Но если представители одного бизнес-подразделения ищут данные в другом, они оказываются ограничены собственными рамками. Если они и получают доступ к централизованному озеру данных, то его удаленное расположение (и размер, большая часть которого занята не их собственными данными) увеличивает задержку.

С помощью сетки данных как никогда легко обеспечить взаимодействие систем, обмен данными на месте и предоставление результатов разнообразным группам бизнес-пользователей. Это могут быть совершенно независимые команды (скажем, HR и R&D) или межфункциональные команды с одинаковыми целями и зачастую одинаковыми данными (QA, работающая с Product Management, или продажи, работающие с маркетингом). Эта новая прозрачность, не требующая усилий, обещает новые уровни производительности.

Три разновидности сетки данных

При внедрении этого подхода обратите внимание на три разновидности сетки данных. Большинство компаний будут использовать их комбинацию:

  • Файловая. Данные компилируются, упаковываются и просто предоставляются в виде статического файла. Это подход, наиболее близкий к сегодняшнему простому облачному хранению, но он будет существовать в рамках новой универсальной одноранговой модели обмена данными.
  • Событийно-ориентированная. Потребители данных из любого подразделения или отдела могут «подписаться» на оповещения о значимых для них изменениях данных. Опять же, это не ракетостроение, но это становится доступным только после того, как эти ранее изолированные данные становятся открытыми и доступными по всей организации.
  • С поддержкой запросов. Очевидно, это самый мощный вариант: любой пользователь может отправлять федеративные запросы, охватывающие несколько баз данных, создавая инсайты, возможные только при объединении результатов. Это Святой Грааль, который дает конечным пользователям новые возможности и разгружает специалистов по исследованию данных.

Имейте в виду, что сетка данных — это не только для корпоративных бизнес-пользователей. Конечный пользователь почувствует скорость отклика, когда данные поступают из оптимизированного, специализированного, распределенного источника, а не из массивного, многоцелевого. В свою очередь, поток кликов и веб-данные, которые пользователи предоставляют на своем пути, могут быть мгновенно восприняты и обработаны — как чистый цикл обратной связи для улучшения производительности, характеристик продукта и, в конечном счете, прибыли.

Расширение возможностей демократизации данных

Многие организации используют архитектуру сетки данных для демократизации и масштабирования своих данных. Этот возлагает ответственность на команды по работе с данными, которые должны стать по-настоящему автономными: им придется самостоятельно получать и очищать данные, создавать конвейеры ETL (и поддерживать их), а также управлять доступом. В то же время, чем больше они инвестируют в эти полностью принадлежащие им шаги, тем лучших результатов они могут ожидать. И да, это означает новую «теплую и уютную» эру взаимовыгодного обмена, когда каждый домен помогает другим, просто преобразуя и предлагая свои данные сообществу.

В заключение я хотел бы привести слова Дехгани, в которых она описывает всеобъемлющую ценность распределенной архитектуры сетки данных, в которой данные, принадлежащие доменам, находятся в централизованной системе доступа: «Технологии, которые в последние десятилетия преуспели в больших масштабах, имеют одну общую черту: они свели к минимуму необходимость в координации и синхронизации».