Специалисты по аналитическим данным (data scientists) занимают первые места в рейтингах самых востребованных профессий во всем мире, и чтобы раскрыть большую ценность своих данных многие организации задействуют сотрудников, не обладающих профильными навыками. В чем их сильные стороны? Что они могут предложить своим организациям? Рассуждениями на эту тему на портале InformationWeek делится технический директор D4t4 Solutions Plc Энт Филлипс.

Специалисты по аналитическим данным крайне востребованы, поэтому чтобы разобраться со своим самым ценным активом — данными — многие организации все чаще вынуждены привлекать сотрудников, которые не обладают специализированными навыками работы с данными. Эти так называемые «гражданские специалисты по данным», как правило, самоучки в какой-либо области со склонностью к анализу, становятся лидерами в важных проектах с определяющим влиянием на бизнес. Например, они часто играют ведущую роль в глобальном внедрении машинного обучения (МО) и искусственного интеллекта (ИИ) и могут вооружить руководителей высшего звена знаниями, необходимыми для преодоления последствий кардинальных изменений бизнеса.

Светила отрасли и аналитики постоянно говорят о том, насколько важна эта роль для будущего. Но, похоже, они упускают из виду главную проблему, с которой сегодня сталкиваются гражданские специалисты — сбор более качественных данных. Самая насущная проблема связана не с инструментарием или использованием языков программирования R или Python2, а с чем-то более фундаментальным. Пренебрегая сбором и подготовкой данных, многие из них не получают самых основных компонентов, необходимых для достижения своих целей. А без более качественных данных гораздо сложнее превратить потенциально великие идеи в ощутимые бизнес-результаты простым, повторяемым и экономически эффективным способом.

Качественные данные — основа развертывания МО

Что касается ввода (или не ввода) в эксплуатацию моделей МО, что иначе называется путем к развертыванию, можно выделить три закономерности. Часто успех определяется качеством собранных данных и тем, насколько сложно настроить и поддерживать эти модели. Первая характерна для компаний, хорошо разбирающихся в данных, когда потребность в МО определяется интересами бизнеса. Для начала работы собирается команда инженеров и специалистов по аналитическим данным, которые тратят огромное количество времени на построение конвейеров, создание обучающих наборов данных, перемещение и преобразование данных, построение моделей и, в конечном итоге, внедрение модели в производство. Этот процесс обычно занимает от полугода до года. Он дорог в эксплуатации, хрупок в обслуживании и сложен в развитии.

Вторая закономерность — это когда прототип модели МО создает гражданский специалист по данным. Эта модель часто является результатом вдохновения, озарения или даже интуитивной догадки. Модель показывает обнадеживающие результаты, и ее предлагают бизнесу. Проблема в том, что для того, чтобы довести прототип модели до производства, требуется пройти все болезненные шаги, описанные выше. Если модель не показывает чего-то выдающегося, она откладывается в долгий ящик и больше не востребуется.

Последняя и возможно самая деморализующая закономерность — это идеи, которые никогда не будут исследованы из-за препятствий, затрудняющих, а то и делающих невозможным их практическую реализацию. Сюда входит множество нюансов, некоторые из которых совсем не очевидны. Например, что делать специалисту по аналитическим данным, который хочет добавить в свои модели функции, отражающие определенное поведение посетителей сайта или пользователей мобильного приложения? Как ему получить эти данные?

Ответ часто заключается в том, что ему нужно направить в ИТ-отдел запрос на изменения в приложениях для сбора этих данных. Однако у ИТ-отдела есть собственные приоритеты, поэтому если гражданский специалист не сможет убедить его в важности своего проекта, то он может затянуться на месяцы — и это при условии, что ИТ-отдел вообще готов внести изменения.

Чтобы консолидировать сбор данных и заложить основу для передовых проектов в области МО и науки о данных, многие компании внедряют технологии, которые делают данные о клиентах более действенными во всех своих цифровых активах. Как показал недавно проведенный CommerceNext опрос маркетологов в сфере розничной торговли и бренд-менеджмента, своим главным технологическим приоритетом они считают инвестирование в платформу клиентских данных (customer data platform, CDP). При этом они автоматизируют самые сложные и трудоемкие процессы, которые часто мешают даже самым продвинутым специалистам по аналитическим данным.

Как избежать ловушек развертывания

Гражданские специалисты по определению не так хорошо разбираются в сложных технических аспектах науки о данных, как их профессиональные коллеги. Но то, чего им не хватает в технических знаниях, они компенсируют своими знаниями в предметной области. А это знание важнейших бизнес-процессов и динамики отрасли является огромным преимуществом при создании успешных, инновационных и потенциально определяющих бизнес моделей прогнозирования. Учитывая это, стоит обратить внимание на технологии, которые снижают планку сложности для экспериментов, повышают доступность (с соответствующими ограничениями) и, в конечном итоге, демократизируют науку о данных.

В то же время компании должны сделать все возможное, чтобы устранить препятствия, мешающие специалистам по аналитическим данным создавать модели данных эффективным и масштабируемым образом, включая внедрение CDP для оптимизации сбора и хранения данных. Обеспечить соответствие технологии ожиданиям должны CIO и те, кому поручено внедрение CDP. В противном случае специалисты по данным (гражданские или другие), продолжат испытывать недостаток в элементах, необходимых для эффективной работы.

Исходя из этих соображений, сбор данных, во-первых, должен быть автоматизирован и без тегов. Потому что разметка поведения посетителей с помощью тегов — это фактически замаскированное кодирование. Эксперименты гражданских специалистов по работе с данными сильно усложняются, если ИТ-отделу приходится вмешиваться в процесс внесения изменений в слои данных. И хотя ИТ-специалисты могут и должны быть вовлечены в процесс с точки зрения управления, главное, что энтузиасты в области данных должны иметь гибкие и масштабируемые автоматизированные системы сбора данных.

Во-вторых, это идентификация — связующее звено, с помощью которого специалисты по аналитическим данным могут объединить разрозненные потоки информации, чтобы организации могли выявить ее истинную ценность. К счастью, у последних есть огромное количество идентификаторов клиентов, на которые можно ссылаться, включая адреса электронной почты, имена пользователей и номера счетов. А графы идентификации могут помочь организациям выстроить порядок из хаоса, чтобы посетителей можно было идентифицировать в режиме реального времени, что делает эти функции необходимыми для анализа поведения пользователей на разных устройствах.

Эти компоненты в совокупности снижают планку вхождения для гражданских специалистов по данным, чтобы они могли полностью раскрыть свой потенциал. Потому что в конечном итоге эффективность их работы будет определять не наличие у них ученых степеней или свободное владение языком R. Напротив, их успех часто сводится к тому, насколько приоритетными для их организаций являются инвестиции в инструменты и технологии, позволяющие устранить фундаментальные ограничения, которые препятствуют экспериментированию и созданию устойчивых моделей.