Дениз Госнелл, директор по данным компании DataStax, рассказывает на портале Information Age о факторах, которые могут способствовать успеху проектов в области науки о данных (data science).

Инвестиции компаний в машинное обучение, искусственный интеллект и науку о данных растут. Data science обладает огромным потенциалом для извлечения новых инсайтов и создания новых сервисов для внутренних и внешних клиентов. Однако эти инвестиции могут оказаться напрасными, если проекты не выполнят своих обещаний. Как мы можем обеспечить их успех?

Где мы находимся сегодня

По данным McKinsey, около половины всех обслуживаемых ими компаний внедрили ИИ хотя бы в одной из своих функций, и уже существует небольшая когорта компаний, которые могут приписать ИИ не менее 20% своей прибыли до уплаты процентов и налогов. Согласно IDC, в 2021 г. на ИИ-решения будет потрачено около 341,8 млрд. долл., что на 15,2% больше, чем в прошлом году.

IDC также установила, что около 28% инициатив в области ИИ и МО до сих пор не увенчались успехом. Исходя из вышеприведенной цифры, это соответствует 88,1 млрд. долл., потраченных на неудачные проекты. Среди причин этого аналитическая компания назвала отсутствие персонала с необходимыми знаниями и опытом, а также отсутствие готовых к обработке данных. Наряду с этим, еще одной причиной неудачных проектов стало ощущение разобщенности и отсутствие интегрированной среды разработки.

Чтобы повысить шансы на успех ваших проектов, стоит потратить время на изучение того, как наука о данных действует на практике и как работает ваша организация. Хотя в термине присутствует слово «наука», на самом деле для достижения наилучших результатов требуется сочетание искусства и науки. Благодаря ему можно изучить масштабирование результатов. Это поможет вам успешно превратить результаты науки о данных в производственные операции для бизнеса.

На самом простом уровне data science предполагает выдвижение идей, а затем использование данных для проверки этих теорий. Используя сочетание различных алгоритмов, конструкций и подходов, специалисты в области науки о данных (data scientists) могут искать новые идеи в данных, которые создают компании. На основе проб, ошибок и усовершенствований команды могут создать ряд новых идей и сделать ряд открытий, которые затем могут быть использованы для обоснования решений или создания новых продуктов. Затем эти данные могут быть использованы для разработки алгоритмов МО и внедрения ИИ.

1. Определение ожиданий в отношении бизнес-целей

Самый большой риск, связанный с этими проектами, — это разрыв между ожиданиями бизнеса и реальностью. За последние несколько лет ИИ привлек много внимания, вокруг него очень много шумихи. Это означает, что со многими проектами — их масштабами, скоростью и/или технологиями — связаны нереалистичные ожидания.

Грамотные руководители проектов понимают, как справиться с проблемами, связанными с объемом и скоростью; именно неправильная интерпретация обещаний технологий ИИ создает наибольшие проблемы для новых проектов. Вместо того, чтобы сосредоточиться на улучшении процесса или предоставлении конкретной информации, ИИ представляют как изменение работы компании сверху донизу, или что какой-то один проект обеспечит повышение прибыльности в течение нескольких месяцев.

Чтобы предотвратить эту проблему, важно определить, как ваши проекты будут способствовать достижению общих бизнес-целей. Затем вы можете начать с малого — с проектов, которые легко понять и которые могут показать улучшения. После того, как вы установите основные правила относительно того, что может дать ИИ, и проколете шарик шумихи вокруг ИИ, чтобы сделать все это «обычным делом», вы сможете сосредоточиться на результатах, которых вы достигаете.

2. Команда как часть общего процесса

Еще одна большая проблема заключается в том, что команды не обладают необходимыми навыками для воплощения своего видения в эффективные процессы. Хотя идеи могут быть здравыми, отсутствие понимания нюансов применения МО и статистики на практике может привести к плачевным результатам. Эта проблема также связана с шумихой вокруг ИИ и МО — спрос на специалистов в области науки о данных означает большую конкуренцию за имеющих опыт работы, притом что даже начинающие специалисты могут получать большие зарплаты. Именно отсутствие реального опыта может со временем привести к проблемам.

Даже при наличии реалистичного видения и опытного персонала проекты ИИ могут не принести результатов. В таких случаях причина обычно кроется в несовершенстве процессов, непоследовательной коммуникации и разрывах между командами.

Чтобы предотвратить подобные проблемы, важно создать бесперебойно работающую инженерную культуру, которая вплетет науку о данных в общий производственный конвейер. Вместо того чтобы выделять для нее отдельную команду, поработайте над тем, чтобы интегрировать специалистов по науке о данных в процесс производственного развертывания. Это поможет минимизировать разрыв между исследованием/разработкой и производством.

3. Использование методов тестирования гипотез на основе данных

Хотя важно поддерживать творческий подход к науке о данных, любая работа должна быть направлена на достижение целей бизнеса. При этом акцент должен делаться на том, какого результата вы хотите достичь или что открыть, используя данные для доказательства (или опровержения) гипотезы, основанной на том, насколько хорошо достигнута эта бизнес-цель.

Netflix недавно рассказала об этом и о том, как их подход к совместному тестированию гипотез помогает держать команду в фокусе. Сосредоточившись на конкретных целях, вы сможете не заблудиться и не потратить время на проекты, которые не окупятся.

Наряду с этим важно оценивать новые технологии на предмет возможных улучшений в плане того, как они могут помочь в достижении целей. Для специалистов в области науки о данных важно оставаться на передовых позициях, но не менее важно сосредоточиться на том, как любая новая технология может помочь достичь конкретного и измеримого бизнес-результата.

Основываясь на этих идеях, вы можете помочь своей команде специалистов по науке о данных использовать свой творческий потенциал и применить его для получения интересных результатов. Когда эти исследования начнут приносить результаты, вы сможете расссмотреть, как внедрить их в производство. Это предполагает создание мостов от команды разработчиков и исследователей, занимающихся наукой о данных, к тем, кто отвечает за эксплуатацию производственных систем, для передачи новых моделей.

4. Использование одних и тех же open source-инструментов от тестирования до производства

Одним из важнейших моментов здесь является то, что вы должны поощрять использование одних и тех же инструментов на каждой стороне. Одним из самых больших препятствий может стать ситуация, когда команда data science разрабатывает новую модель и рабочий процесс работы с данными, а затем тем, кто отвечает за запуск модели в производство, приходится переделывать эту модель для работы с существующей инфраструктурой. Главное здесь — избежать старого доброго оправдания «Это работало на моем ноутбуке!», так как ноутбуки не могут быть перенесены в продакшн, а доработка стоит дорого.

Использование open source может помочь достичь этой согласованности. От баз данных, таких как Apache Cassandra, до потоковой передачи событий с Apache Pulsar, обогащения данных с Apache Flink и аналитики с Apache Spark — общие инструменты, используемые для работы с данными в основном имеют открытый исходный код и легко соединяются друг с другом. Наряду с этой инфраструктурой открытых данных, применительно к созданию и тестированию алгоритмов и моделей МО важен TensorFlow. Вы также можете использовать что-то вроде Apache Airflow для управления рабочим процессом, который есть в вашей команде. Это облегчает создание общего для всех стека.

Наряду с согласованностью инструментов и инфраструктуры, обе стороны должны договориться об общих определениях и контексте. Для этого необходимо установить правильные цели и метрики, чтобы все знали, как команда будет оцениваться с течением времени. В то же время, должна быть возможность для постоянной переоценки этих показателей, чтобы акцент всегда делался на достижении нужных бизнес-результатов. Антрополог Мэрилин Стратерн описала это так: «Когда мера становится целью, она перестает быть хорошей мерой». Команды не должны слишком концентрироваться на метриках и измерениях в ущерб общей цели.

Наконец, не следует упускать из виду роль тестирования. После разработки новых моделей, которые должны оказать желаемое воздействие, они должны быть протестированы, чтобы убедиться, что они работают так, как ожидается, и не подпадают под влияние проблем в тестовых данных или каких-либо предубеждений, которые не были учтены. Тестирование — с использованием тех же инструментов и процессов, которые будут использоваться в производстве — не только помогает подтвердить ценность, которую создает наука о данных, но и облегчает масштабирование этой работы. Если пропустить этот этап или не придать ему должной степени строгости, со временем возникнут проблемы.

Будущее науки о данных

Наука о данных обладает огромным потенциалом для того, чтобы помочь предприятиям улучшить свою деятельность. С ее помощью можно разрабатывать новые продукты, показывать, куда инвестировать, и помогать людям принимать лучшие решения.

Чтобы избежать риска неудачи, посмотрите, как можно построить работу на основе open source-стека, чтобы упростить процесс перехода от первоначальных открытий к полноценному производству. Такая последовательность должна облегчить работу специалистов в области науки о данных, а операционному персоналу — внедрение этих инсайтов в производство.