Эффективный интеллектуальный анализ данных (data mining) — это соединение всех нужных данных для создания полной и своевременной картины бизнес-проблем, которые вы пытаетесь решить. В мире бизнеса существует острая потребность в как можно более простом способе раскрытия ценности данных, пишет на портале eWeek Джордж Коругедо, технический директор компании Redpoint Global.
Скорость увеличения объемов данных всех типов из все большего числа источников постоянно растет. Предприятия испытывают трудности с реализацией ценности данных и достижением конечной цели — монетизации бизнес-данных посредством смелых действий, основанных на данных.
Однако ключ к осуществлению таких амбициозных действий лежит не в самом изобилии данных. Напротив, это происходит благодаря объединению всех нужных данных для создания четкой, полной и своевременной картины обстоятельств, клиентов или бизнес-аспектов, которые вы пытаетесь задействовать.
Именно эта связь позволяет по-настоящему раскрыть мощь и потенциал данных для их непосредственного преобразования в ценность и результаты для бизнеса. Однако обеспечение этой связи не лишено трудностей. Для этого необходимо выполнить несколько ключевых шагов.
1. Приведение данных к пригодному для использования виду
Отчет Precisely «Data Integrity Trends: Chief Data Officer Perspectives in 2021» иллюстрирует масштаб проблемы: типичное предприятие имеет в среднем 27 интегрированных источников данных. Из сотен опрошенных руководителей высшего звена, отвечающих за работу с данными, 82% заявили, что проблемы качества данных являются «очень» или «довольно» сложными, а 74% не имеют технологий или сервисов по интеграции. Многие эксперты по данным определяют большие данные как «огромные, чрезмерные и неконтролируемые объемы информации».
А многочисленные опросы ведущих аналитических и консалтинговых групп показывают, что лишь от четверти до трети предприятий всех отраслей считают, что они овладели методами обращения со своими данными, необходимыми для монетизации их внутренней ценности. Некоторые видят в этом способ для бизнеса выделиться, и они не ошибаются.
Сложилась ситуация, когда состояние технологии не соответствует масштабам проблемы. Точнее, задаче не соответствует сочетание технологий и навыков, иначе называемых способностями. Технологии для решения этой проблемы существуют, но слишком мало достаточно квалифицированных людей, которые знают, как работать с этими инструментами. Только вдумайтесь в размер и масштаб проблемы, и вы быстро придете к выводу, что это ситуация, которая требует кардинального разрешения.
Однако что же делать до тех пор, пока не произойдет прорыв? Какие правильные действия должен начать предпринимать любой бизнесмен, чтобы привести свои данные в пригодный для использования вид? Как и во многих других проблемах, здесь есть три ключевых момента:
- данные должны быть переведены на один язык, должен быть общий лексикон. Каждая система, которая производит данные, часто имеет собственный лексикон, который требует уникальный «Babel» для каждой организации;
- различные признаки или элементы персональных данных должны быть стандартизированы, чтобы Боб, Роберт и Бобби распознавались как одно и то же имя. Это должно быть сделано для всех элементов, а не только для имен, как это делают некоторые поставщики;
- наконец, алгоритмы, основанные на искусственном интеллекте (дисциплина, ранее, до появления шумихи вокруг больших данных, известная как статистика), должны вероятностно объединить записи данных из всех источников в группу, которая в совокупности может быть использована для создания «золотой записи» полных, исчерпывающих, точных и своевременных данных о субъектах, на которые вы ориентируетесь. Будь то промышленные детали, клиенты бренда или финансовые организации.
2. Стандартизация потока данных
Огромное количество источников данных, каждый из которых имеет свои правила форматирования и лексику, является одним из основных препятствий для объединения данных, чтобы сделать их понятными и ценными для всего предприятия.
При объединении данных из нескольких источников необходимо проанализировать множество деталей, чтобы убедиться, что каждый источник говорит (в переносном смысле) на одном языке. Например, почтовые индексы — это текстовое поле с числовыми символами, и ведущий «0» — как в некоторых странах, например, «02482» — обычно создает хаос в таких вещах, как электронные таблицы и другие хранилища данных, которые автоматически определяют тип поля.
Еще один пример — достижение консенсуса по бизнес-определениям. В страховой отрасли, например, различные регионы, периоды ожидания, даты начала действия полиса и другие переменные часто означают, что разные источники по-разному понимают такую базовую вещь, как продажа. Все эти детали должны идти под одним флагом, чтобы бизнес-данные имели одинаковое значение для разных источников, отделов, каналов и процессов.
Стандартизация данных — это второй вопрос качества данных, который часто ставит в тупик организации, имеющие дело с цунами поступающих данных. Имена и адреса с кажущимися бесконечными нюансами являются классическим примером. Но простое сопоставление Джона Смита с Джонатаном Смитом, когда эти имена могут представлять — или не представлять — разных людей, может привести к негативным последствиям. Это относится как к маркетингу, так и к любому отделу, работающему с конфиденциальной персональной информацией. Стандартизация подразумевает перевод всех данных в общий формат, чтобы их можно было последовательно и правильно сравнивать.
Согласование различных форматов и лексики из различных источников, стандартизация имен, адресов, электронной почты и другой информации приводит к последнему, критическому шагу обеспечения качества данных — их фактической увязке.
В большинстве ситуаций, когда есть потребитель и бренд — например, в маркетинге — связывание данных означает сопоставление всех данных о человеке с записью, а затем знание истории этого человека, его интересов, вероятного поведения, использования и предпочтений, чтобы при появлении этого человека на физическом или цифровом канале (магазин, веб-сайт, колл-центр, социальная сеть и т. д.) бренд мог предоставить соответствующий контент. Разрешение идентичности позволяет оценить, насколько близки или далеки друг от друга записи, и определить, должна ли существовать связь.
3. Структуризация данных для поддержки принятия решений и анализа
Быстрое увеличение объемов бизнес-данных означает, что чаще всего компании уже не могут полагаться на жесткие ключи соответствия, такие как номер социального страхования или номер счета, чтобы идентифицировать человека.
В течение многих лет в этой области возникали различные инициативы, такие как Open ID 2.0, но они никогда не были долговечными, и законодательство обычно в конечном итоге убивает эти инициативы. Аналогичным образом, компании, занимающиеся идентификацией, часто используют справочные файлы, что слишком просто; они заинтересованы в максимальном совпадении, поскольку это увеличивает доход, и в конечном итоге источники справочных данных иссякают.
Статистические методы (ИИ) необходимы для того, чтобы разобраться в бесконечном количестве способов представления людей. Важно отметить, что методы часто различаются в зависимости от потребностей бизнеса в данных. Например, для использования в маркетинговой атрибуции, скорее всего, будет приемлемо менее строгое или более слабое соответствие, чем для использования, связанного с соблюдением нормативных требований или защитой персональных данных в здравоохранении.
Независимо от предполагаемого сценария использования, данные должны быть организованы в структуру для поддержки принятия решений, поддержки аналитики и надлежащего управления в течение необходимого периода времени; данные никогда не бывают статичными, это поток. В большей степени искусство, чем наука, связывание данных требует значительных навыков, чтобы сделать это на уровне, необходимом бизнесу для успешного использования и монетизации данных.
Даже если решение доступно, оно часто требует компромисса, который ставит компании в рискованную ситуацию. Один из компромиссов — отправка данных через Интернет в управляемые службы SaaS, что подвергает данные риску раскрытия (с помощью суперкомпьютеров) даже при использовании шифрования. Другой вариант — полагаться на подход к качеству и управлению данными, ориентированный на внутренние ИТ, который, хотя и позволяет сохранить данные внутри компании, создает узкие места, связанные с разрозненностью данных и процессов, противоречивыми приоритетами проектов, требующими много времени конфигурациями и нехваткой ресурсов.
Верните контроль над своими данными
Полная прозрачность данных и доверие к их качеству возможны, когда шаги по обеспечению качества данных и разрешению идентификации выполняются в момент поступления данных (или в течение миллисекунд), создавая неоспоримую единую запись о клиенте или субъекте, представляющем ценность для организации.
Сложность устраняется, когда идентификационные данные разрешаются в режиме реального времени, когда данные согласовываются и совершенствуются без необходимости покидать периметр безопасности, а точная привязка сторонних данных к собственным деловым и клиентским данным осуществляется в базах данных предприятия, где бы они ни находились.
Слишком много компаний испытывают трудности с данными, не имеют полного контроля над ними или не могут монетизировать величайший актив, которым они обладают. Но у них есть возможность совершить настоящий прорыв. Потребность в том, чтобы данные стали согласованы и представляли аспекты бизнеса так, как ожидает бизнес, слишком важна, чтобы упустить такую возможность.