Проблема больших данных (Big Data) по-прежнему заключается в том, чтобы донести нужную информацию до нужных людей в нужное время, особенно в условиях роста числа источников и способов использования информации, пишет на портале eWeek Майлз Суер, директор по маркетингу решений компании Alation.

В 2013 г. Джудит Гурвиц и другие эксперты рынка провозгласили начало эры больших данных. По их мнению, большие данные позволяют организациям хранить, управлять и манипулировать огромными объемами данных с нужной скоростью и в нужное время, чтобы получать нужные инсайты.

Они откровенно заявили, что большие данные не представляют собой единую технологию, а являются гетерогенным набором технологий управления данными, корни которых уходят в несколько предыдущих технологических преобразований.

Вопрос заключается в следующем: в каком состоянии сегодня находится сфера больших данных? И что необходимо для их зрелого применения?

Справедливости ради следует отметить, что последние опросы аналитиков показали, что большие данные еще не привели к большим результатам в бизнесе. Несмотря на всю шумиху, большинство сотрудников компаний по-прежнему не имеют легкого доступа к информации для выполнения своей работы. Проблема по-прежнему заключается в том, чтобы доставить нужную информацию нужным людям в нужное время, поскольку количество источников информации, способов ее использования и пользователей растет.

Хранилища данных vs. озера данных vs. ткань данных

Для хранения всех этих данных появились такие системы хранения и управления, как хранилище данных, озеро данных и ткань данных (data fabric). «Организациям понадобятся в той или иной форме все три эти системы, — говорит бывший ИТ-директор Тим Макбрин. — Но ткань будет необходима в качестве зонтика для интеграции, управления и контроля всех данных предприятия на уровне решений и платформ. Согласованность данных между подразделениями предприятия является обязательным условием».

По мнению ИТ-директора Кэрри Шумейкер, зачастую централизовать данные не представляется возможным. Или же вначале строится прототип анализа с использованием сервисов доступа к разрозненным источникам данных, а затем проверяется, насколько он оказывается плодотворным и соответствующим потребностям бизнеса. Централизация осуществляется позже.

Аналитик Hurwitz Дэн Кирш видит связь между тенденцией децентрализации данных и тканью данных. «Мы наблюдаем рост популярности подхода data fabric, поскольку нереально иметь одно центральное хранилище, где все ваши данные будут актуальными, управляемыми и чистыми, — делится он. — По этой причине ткань данных должна обеспечивать их гетерогенное размещение». По его мнению, подход на основе ткани данных помогает решить проблему разделения ответственности — каждая команда отвечает за свои собственные данные и затем подключает их, а не сбрасывает в озеро данных. «AWS может сказать, что озеро данных — это единственный путь к успеху аналитики. И, конечно, они хотят, чтобы организации сбрасывали все свои данные в облако AWS», — критикует Кирш.

Бывший вице-президент Gartner по данным и аналитике Ник Хойдекер полагает, что все эти тенденции важны: «Каждая концепция служит различным пользователям и сценариям применения. Хранилища данных — для высокопроизводительной, повторяемой аналитики. Озера данных — для поиска ответов на вопросы/экспериментов. Сетка данных (data mesh) — для контролируемого использования распределенных данных». Во избежание путаницы: Gartner считает озера и сетки данных эквивалентными понятиями.

Централизация стратегии работы с большими данными на единой платформе

Эксперты полагают, что можно использовать двойные стратегии, но придерживаться единой платформы. Бывший ИТ-директор Макбрин говорит, что ему нравится иметь «две стратегии. Одна стратегия предназначена для производства, а другая — для аналитики. Каждая из них имеет свою основную платформу-хаб и поддержку нескольких репозиториев данных. А между двумя основными хабами есть ETL-платформа (реальная, приближенная, пакетная)».

Но кто из поставщиков предоставляет основную часть этих услуг? «Я еще не видел ни одного поставщика, который, по моему мнению, был бы достаточно хорош сам по себе, чтобы стать полноценной платформой», — сетует Макбрин.

Шумейкер соглашается с ним, когда шутит: «Разве многочисленные репозитории данных часто включают несколько электронных таблиц?». По этой причине, говорит ИТ-директор Деб Гилдерслив, «во многом речь идет не столько о централизации данных, сколько об их интеграции. Как интегрировать все ваши данные, чтобы вы могли их визуализировать и подключить к другим системам (будь то локальным или облачным)?».

«Централизация всех данных создает проблемы с затратами, управлением и безопасностью, — делится Кирш. — Данные заблокированы в приложениях для поддержки бизнеса, онпремис и в облачных экосистемах. Подключение к данным там, где они находятся, помогает устранить риск и увеличить скорость получения инсайтов».

«Я не думаю, что здесь возможно решение от одного поставщика, — соглашается Хойдекер. — Некоторые предоставляют возможности запросов, но история управления еще никем не раскрыта. „Big“ в больших данных делает перемещение данных сложной задачей. Несколько платформ — это нормально. Если вам повезет, вы сможете нормализовать инструментарий и навыки».

Таким образом, ткань данных — это концепция управления данными для достижения гибких, многократно используемых и расширенных конвейеров интеграции данных, сервисов и семантики для поддержки различных операционных и аналитических сценариев применения, которые предоставляются в рамках многочисленных развертываний и платформ оркестровки.

Обеспечение соблюдения правил управления данными и их конфиденциальности

Чтобы эффективно управлять данными, компании должны иметь четкое представление о том, какими данными они располагают. Организациям необходимо «понять, какие типы данных находятся в их озере или ткани данных, — говорит Кирш. — Если в конкретном приложении или новом начинании задействованы персональные данные, компаниям необходимо назначить руководителя, который будет следить за их надлежащим использованием. Он также может помочь решить вопрос о том, что возможно делать с данными, а что целесообразно».

Управляющие данными (stewards) играют важную управленческую роль. Поэтому неудивительно, что Макбрин говорит о важности назначения таких «управляющих, вся работа которых заключается в доступе к информации и управлении исправлениями в ее первоначальном источнике. Они ротируются из бизнес-команд, и для них разработаны KPI. Мы проводим ежемесячный обзор их деятельности и корректируем ее по мере необходимости».

«Важно назначить управляющих заранее и знать, как проверять их работу, — утверждает Гилдерслив. — Также важно получать от управляющих обратную связь по UX-дизайну». Шумейкер добавляет, что ей нравится, когда «управляющие данными визируют высокоуровневый дизайн. Для получения доступа к любому набору данных необходимо пройти соответствующее типу данных обязательное обучение по доступу и соблюдению требований, а для более специализированных наборов данных может потребоваться дополнительное обучение».

Как влияют облачные технологии на стратегию работы с большими данными

«Облако становится еще одной формой вычислений и хранения данных, а не отдельной средой, — настаивает Кирш. — Управление облаком и его видимость очень важны. Бытует мнение что облако — это быстрый способ спустить бюджет. Но во многих случаях нет причин переносить некоторые приложения в облако. Зато имеет огромное значение возможность мгновенно проверять пробные концепции и делать эксперименты в облаке. Примером служит использование в облаке графических процессоров вместо покупки физической инфраструктуры».

Гилдерслив согласен с этим, говоря, что «облако позволяет организациям пробовать новые вещи, а также добавлять и убирать вычислительные мощности по мере необходимости без необходимости ждать, пока будет выполнена физическая работа».

Как развиваются процессы обработки данных

Процессы требуют фундамента из четко определенных терминов. По мнению Гилдерслива, «начало работы в транзакционных системах имеет решающее значение. Если данные изначально неверны, много времени уходит на их очистку и улучшение». Шумейкер соглашается и говорит, что «это не сексуально, но организациям необходимо согласовывать определения данных, которые будут совместно использоваться и поддерживаться».

По этой причине Кирш считает, что пришло время «изменить процессы обработки данных, внедрив такие процессы, как DataOps. Они станут важными для организаций, управляемых данными. Это не произойдет в одночасье. Предприятия все еще испытывают трудности с DevOps. Грамотность в области данных также имеет решающее значение для достижения успеха. Выпускники бизнес-школ не должны получать степень MBA без определенного уровня понимания данных».

Хойдекер добавляет, что «наибольшая зрелость необходима в областях, которые облегчают обмен контекстом вокруг данных, то есть в таких вещах, как грамотность в области данных. DataOps может помочь в обеспечении устойчивости, но это все еще в подавляющем большинстве случаев техническая практика».

Напутственные слова

Очевидно, что большие данные находятся в том состоянии, которое аналитики называют «избавлением от иллюзий». Хотя компании, управляемые данными, в долгосрочной перспективе будут победителями, им предстоит еще много работы.

Они должны внедрить управление данными, необходимое для того, чтобы данные были достаточными для выполнения задач и защищенными. Им также необходимо улучшить процессы обработки данных. В этом может помочь совместное применение DataOps и Data Governance. Для этого победители в области данных создадут то, что Жанна Росс и Мартин Мокер из MIT Center for Information Systems Research называют «операционной и цифровой основой».