Кайл Кирван, соучредитель и генеральный директор компании Bigeye, рассказывает на портале Datanami о том, что такое наблюдаемость данных, почему она важна, какие преимущества она дает и когда наступает подходящее время для ее внедрения.

В современном мире, основанном на данных, наблюдаемость данных является критически важным понятием для организаций, стремящихся эффективно управлять своими данными. Проще говоря, это означает возможность постоянного мониторинга и понимания состояния ваших данных. Это включает в себя отслеживание того, откуда они поступают, куда направляются, вовремя ли и в нужном ли количестве, каковы их качество и любые недавние изменения в поведении. Наблюдаемость данных помогает ответить на важные вопросы о ваших данных и обеспечивает их надежность.

Что такое наблюдаемость данных?

Наблюдаемость данных — это способность организации постоянно видеть и понимать состояние своих данных. Под «состоянием» мы подразумеваем следующие вещи: откуда и куда поступают данные через наши конвейеры, вовремя ли они поступают и в том объеме, который мы ожидаем, достаточно ли высоко их качество для наших сценариев использования, нормально ли они себя ведут, или они недавно изменились?

Вот несколько вопросов, на которые вы можете ответить с помощью наблюдаемости данных:

  • Получает ли клиентская таблица свежие данные вовремя или с задержкой?
  • Есть ли у нас дублирующиеся транзакции в корзине и в каком количестве?
  • Огромное снижение среднего размера покупки — это просто проблема с данными или реальная вещь?
  • Повлияю ли я на кого-нибудь, если удалю эту таблицу из нашего хранилища данных?

Платформы наблюдаемости призваны обеспечить непрерывный и всеобъемлющий обзор состояния данных, проходящих через конвейеры данных, чтобы можно было легко отвечать на подобные вопросы.

Общие действия по наблюдению за данными включают мониторинг оперативного состояния данных, чтобы убедиться в их свежести и полноте, обнаружение и выявление аномалий, которые могут указывать на проблемы с точностью данных, отображение происхождения данных в таблицах, расположенных выше по потоку, для быстрого выявления основных причин проблем, а также отображение происхождения данных ниже по потоку в приложениях аналитики и машинного обучения, чтобы понять последствия проблем.

После того как команды по работе с данными запустят эти действия, они смогут систематически понимать, когда, где и почему возникают проблемы с качеством данных в их конвейерах. Затем они смогут предотвращать влияние этих проблем на бизнес и работать над тем, чтобы предотвратить их появление в будущем!

Наблюдаемость данных открывает доступ к этим основным видам деятельности, поэтому она является первым шагом на пути к достижению конечной цели каждой организации в области данных: более здоровые конвейеры, команды разработчиков данных с бóльшим количеством свободного времени, более точная информация и более довольные клиенты.

Почему наблюдаемость данных — это важно?

Организации неустанно стремятся лучше использовать свои данные для принятия стратегических решений, улучшение пользовательского опыта и эффективности работы. Все эти сценарии использования предполагают, что данные, на которых они работают, надежны.

Реальность такова, что все конвейеры данных дают и будут давать сбои. Это не вопрос «если», а вопрос «когда» и «как часто». Что команда разработчиков данных может контролировать, так это частоту возникновения проблем, их влияние и уровень стресса при устранении сбоев.

Команда по работе с данными, не имеющая такого контроля, потеряет доверие своей организации, что ограничит ее готовность инвестировать в такие вещи, как аналитика, МО и автоматизация. С другой стороны, команда, которая постоянно предоставляет надежные данные, может завоевать доверие своей организации и помочь ей в полной мере использовать данные для развития бизнеса.

Наблюдаемость данных важна, потому что это первый шаг к уровню контроля, необходимому для обеспечения надежных конвейеров данных, которые завоюют доверие организации и в конечном итоге позволят извлечь из данных больше пользы.

Каковы преимущества наблюдаемости данных?

Что вы получаете, когда полностью контролируете конвейеры данных? В конечном итоге команда специалистов по работе с данными может убедиться в том, что данные, поступающие в бизнес, свежие, качественные и надежные — и заслуживают доверия.

Давайте подробнее рассмотрим ощутимые преимущества наблюдаемости данных:

  1. Уменьшение последствий проблем с данными — когда проблемы возникают, они быстрее становятся понятными и решаются; в идеале — до того, как они достигнут одной из заинтересованных сторон. Перебои в работе данных всегда будут представлять собой риск, но благодаря наблюдаемости их последствия значительно снижаются.
  2. Вы будете тратить меньше времени на реагирование и ликвидацию последствий сбоев данных. Это значит, что у вас будет больше времени на созидание, автоматизацию и другие интересные вещи, связанные с инженерией данных и наукой о данных.
  3. Повышение доверия заинтересованных сторон к данным — как только они перестанут видеть сомнительные данные в аналитике и слышать о проблемах с моделями MО, они начнут доверять данным и считать, что они подходят для принятия решений или интеграции в их продукты и услуги.
  4. Увеличение инвестиций в данные со стороны бизнеса — если заинтересованные стороны доверяют данным, они могут чувствовать себя комфортно, используя данные во всех сферах бизнеса, что означает выделение большего бюджета на данные и команду специалистов по данным.

История наблюдаемости данных

Концепция наблюдаемости данных возникла в конце 2010-х. Изначально она была вдохновлена внутренними усилиями таких компаний, как Uber, Netflix, Airbnb и Lyft, направленными на повышение качества данных и мониторинг конвейеров и таблиц данных.

Большинство из этих команд по работе с данными сначала разработали своего рода систему тестирования конвейеров, а затем перешли к разработке настоящих инструментов наблюдаемости данных.

В конце концов, небольшие компании с более легкими техническими командами также обеспокоились по поводу возможностей наблюдаемости. Однако им не хватало мощности для создания таких решений собственными силами. В результате были созданы SaaS-решения для обеспечения наблюдаемости данных, чтобы заполнить этот пробел.

Наблюдаемость данных и ваши проблемы

Готова ли ваша организация к наблюдаемости данных? Возможно, да, если вы столкнулись с одной из этих ситуаций:

  • Вы только что столкнулись с серьезным сбоем данных. Это самое очевидное время для инвестиций в наблюдаемость данных — сразу после устранения сбоя! Обычно все заняты своими делами, и получить поддержку для принятия превентивных мер против будущего сбоя может быть непросто. Сразу после сбоя — это самое лучшее время для инвестиций в наблюдаемость данных, поскольку все заинтересованные стороны стремятся предотвратить возникновение проблем в будущем.
  • Ваши конвейеры стали сложными. Команды не могут ждать, пока их застанут врасплох неточные, неработающие или несвежие данные. Одно изменение схемы может привести к хаосу и катастрофическим последствиям. Изменения означают рост, но они также означают непредсказуемость. Наблюдаемость данных — это технологический ответ на эту непредсказуемость; платформы наблюдаемости данных возвращают предсказуемость и надежность в ваши сложные конвейеры данных. Вы не можете вручную поддерживать каталоги данных в актуальном состоянии с помощью электронных таблиц и периодических совещаний. Вам нужна более четкая видимость конвейеров данных и аномалий, как только они возникают.
  • Вы перешли на централизованную структуру работы с данными. Наблюдаемость данных может помочь командам понять, как их работа вписывается в общую картину данных в вашей организации. Изменения схемы, новые источники данных и добавление конвейеров отслеживаются и становятся известными с помощью наблюдаемости данных. Благодаря этому команды могут понимать влияние изменений, которые кажутся незначительными, но могут вызвать серьезные последствия. Наблюдаемость данных — это эффективный инструмент коммуникации; когда ваши данные пишут историю, наблюдаемость данных служит стенограммой.

Заключение

В эпоху, когда данные влияют на каждое решение, наблюдаемость данных является основой качества и надежности данных. Она не только позволяет организациям быстро выявлять и устранять проблемы с данными, но и помогает предотвращать их возникновение. По мере того как системы данных становятся все более сложными, а организации внедряют специальные структуры команд по работе с данными, необходимость в наблюдаемости данных становится еще более очевидной. Инвестируя в наблюдаемость данных, организации могут уменьшить влияние проблем с данными, тратить меньше времени на реагирование на проблемы, заслужить доверие заинтересованных сторон и привлечь больше инвестиций в инициативы, связанные с данными.

Путь к наблюдаемости данных начался с таких технологических гигантов, как Uber и Netflix, но теперь он доступен для организаций любого размера благодаря инновационным SaaS-решениям. Если вы когда-либо сталкивались с утечкой данных, работали с запутанными конвейерами данных или переходили на особую структуру команды по работе с данными, возможно, вам пора внедрить систему наблюдаемости данных.