Джеффри Партика, главный инженер в области науки о данных (data science engineer) компании Xactly, делится на портале Enterprisers Project своими соображениями и развеивает мифы о повседневной реальности этой динамичной роли.

Обычно работа data science engineer представляется так: мы создаем очередную передовую модель машинного обучения, демонстрируем ее на конференциях и срываем аплодисменты. Однако это далеко от повседневной реальности для большинства специалистов в области науки о данных (data scientists).

В действительности наука о данных гораздо более прагматична: вместо того чтобы создавать новые модели с нуля, мы дорабатываем известные модели из известных библиотек и выбираем предикторы, основываясь на знаниях о предметной области. Благодаря этому мы можем быстро предоставлять ценность.

Чтобы развенчать мифы, расскажу, что представляет собой моя работа в компании Xactly, занимающейся анализом доходов.

Мои ежедневные обязанности

Повседневные обязанности любого data scientist часто зависят от размера команды. В больших командах роли, как правило, более специализированные. В них есть несколько человек, которые работают над определенными этапами жизненного цикла данных. В такой небольшой команде, как моя, вы должны сидеть сразу на нескольких стульях и разбираться во всех фазах.

Мой день начинается с общения с моими коллегами по команде на предмет различных моделей, над которыми они работают, или проблем, которые они решают. Иногда все идет хорошо, и мы этому радуемся. Но обычно возникает множество проблем, которые необходимо решить.

После общения с командой я работаю над своими моделями и проектами, которые, как правило, более трудные и сложные. Я стараюсь посвятить большую часть своего времени решению самых разных задач — от повышения производительности модели до решения проблем с развертыванием.

Демонстрация ценности данных

Помимо общения, инженерии данных, представления значимых результатов и других задач, у специалиста в области науки о данных есть множество иных целей. Моя ежедневная цель — продемонстрировать остальным сотрудникам организации и нашим клиентам ценность наших данных. Стратегия и евангелизация — главные приоритеты. Важно показать, что наука о данных полезна для инженерного отдела, отделов маркетинга, по работе с клиентами, продаж и др.

Моя команда ежедневно занимается решением различных технических проблем в рамках всей организации. Кропотливая ежедневная работа способствует достижению больших целей. Я вижу это как решение одной или двух небольших проблем в день, что со временем приводит к решению более крупной задачи, которая служит более важной цели.

Нам приходится углубляться в детали того, как были созданы данные. На основе этого мы стремимся создавать новые предикторы, которые можно будет включить в наши модели.

Мы развиваем успех, разрабатывая новые модели и делая новые выводы на базе завершенных проектов. Например, недавно внедренная модель достигла точности прогнозирования продаж почти в 100%. Теперь мы внедряем эти же возможности в другие наши модели.

Как я использую гибридную модель работы

Наша компания поощряет гибридную модель работы, поэтому в дни, посвященные сотрудничеству и общению, я считаю, эффективнее работать с моей командой и заинтересованными сторонами очно.

В дни погружения в техническую работу, когда мне не нужно отвлекаться, я обычно работаю удаленно. Удаленная работа более продуктивна для глубокого погружения в данные и решения сложных проблем. Математика, анализ и разработка ПО — все это основные компоненты моей работы на дому, и чем меньше отвлекающих факторов, тем лучше.

Наука о данных постоянно развивается

С тех пор как я начал изучать науку о данных в 2010-х, многое изменилось. В частности, ожидания стали выше — и у нас уже есть средства автоматизации, чтобы оправдать эти ожидания.

Раньше основное ожидание от специалистов в области науки о данных заключалось в построении модели. Одного этого часто было достаточно, чтобы удовлетворить заинтересованные стороны, объяснимость не требовалась. Не было острой необходимости отвечать на вопросы об обосновании прогнозов, поскольку идея создания MО-модели, которая выдает прогнозы, была откровенно футуристической и сама по себе достаточно перспективной.

Однако со временем возникли вопросы о правильности предсказаний, что привело к появлению множества фреймворков, демонстрирующих влияние предикторов модели. Именно здесь начинает проявляться ответственность евангелиста.

В конечном счете, рост автоматизации и поддержка сообщества открыли науке о данных путь к новым высотам. Но это привело к еще одному заблуждению, которое заключается в том, что в конечном итоге необходимость в специалистах в области науки о данных отпадет, потому что автоматизация заменит нас.

Я с этим не согласен.

Для специалистов в области науки о данных проблема не обязательно заключается в том, как строить модели или писать код; главный вопрос заключается в том, какие модели строить и какой код писать. Задача состоит в том, чтобы найти наилучшую модель, которая принесет наибольшую пользу бизнесу. И чтобы понять это, вам нужны знания о компании, которых нет у ИИ.

Согласно прогнозам, в этом десятилетии наука о данных будет развиваться быстрее, чем любая другая область. Профессия data scientist в обозримое время не исчезнет, поэтому, если вы хотите сделать карьеру в этой отрасли, я бы посоветовал вам отбросить заблуждения, связанные с ней. Мой совет — найдите идею очень интересного проекта и создайте его с нуля. Объедините этот практический опыт с некоторым образованием с помощью онлайн-курсов и книг — и вы на пути к успешной карьере в области науки о данных.