Даже в упрощенной среде разработки машины и алгоритмы все равно опираются на человеческий интеллект, пишет на портале Information Week Дэвид Магерман, соучредитель и управляющий партнер Differential Ventures.

Горизонтальные МО-платформы No-code/Low-code полезны для масштабирования применения науки о данных на предприятии. Тем не менее, как сейчас выясняют для себя многие организации, существует очень много вариантов, когда аналитическая работа с данными при решении новых задач может пойти не так. Так, риэлтор Zillow понес миллиардные убытки, покупая дома с использованием ошибочной модели оценки, основанной на данных. Технология управления персоналом на основе данных, особенно если она основана на ПО для распознавания лиц, как оказалось, приводит к необъективным решениям при приеме на работу.

Хотя автоматизация — это отличный инструмент в вашем арсенале, перед использованием горизонтальной платформы MО необходимо рассмотреть потенциальные проблемы. Эти платформы должны быть гибкими, настраиваемыми и контролируемыми, чтобы быть надежными и постоянно увеличивать ценность с течением времени. Они должны позволять гибко взвешивать данные, контролируемые пользователем, и иметь инструменты визуализации данных для выявления отклонений и источников шума. Им также нужен автоматический мониторинг параметров модели и дрейфа данных, чтобы предупреждать пользователей об изменениях.

Как видите, мы еще не настолько продвинулись, чтобы алгоритмы превзошли человеческий интеллект. Поэтому не стоит обманываться ИИ/МО/Low-code... Люди все еще нужны. Давайте подробнее рассмотрим причины этого.

Машины учатся у людей

Попытка заменить человеческих специалистов по аналитической работе с данными, экспертов в предметной области и инженеров с помощью автоматизации — это подход, который может привести к катастрофе, если его применить к критически важным системам принятия решений. Почему? Потому что люди понимают данные так, как автоматизированные системы до сих пор не могут.

Люди могут отличить ошибки в данных от просто необычных данных (например, торговля Game/Stop/GME, как это случилось в феврале) и соотнести необычные модели данных с реальными событиями (например, теракты 9/11, COVID, финансовые кризисы, выборы). Мы также понимаем влияние календарных событий, таких как праздники. В зависимости от данных, используемых в алгоритмах MО, и прогнозируемых данных, алгоритмам автоматического обучения может быть трудно обнаружить семантику. И нет необходимости заставлять их выявлять эти взаимосвязи, если они не скрыты для человека-оператора.

Помимо семантики, самой сложной частью науки о данных является различие между статистически хорошими и полезными результатами. Легко поддаться искушению использовать оценочную статистику, чтобы убедить себя в том, что у вас хорошие результаты или что новая модель дает лучшие результаты, чем старая, когда на самом деле ни одна из моделей не является полезной для решения реальной проблемы. Однако даже при использовании достоверных статистических методик интерпретация результатов моделирования требует человеческого интеллекта.

При разработке модели вы часто сталкиваетесь с вопросами о том, какие статистические данные оценки модели следует измерять — как их взвесить, оценить с течением времени и решить, какие результаты являются значимыми. Кроме того, существует проблема чрезмерного тестирования: если вы слишком часто тестируете один и тот же набор данных, вы в конечном итоге «выучите» свои тестовые данные, что сделает результаты тестирования чрезмерно оптимистичными. Наконец, необходимо построить модели и понять, как объединить все эти статистические данные в методологию моделирования, которая будет достижима в реальном мире. Также необходимо учитывать, что если платформа МО была успешно применена для решения конкретной задачи моделирования и прогнозирования, это не означает, что повторение того же процесса для другой задачи в этой области или в другой вертикали приведет к такому же успешному результату.

На каждом этапе процесса исследования, разработки и внедрения науки о данных необходимо принимать множество решений. Вам нужны опытные специалисты по анализу данных для разработки экспериментов, эксперты в предметной области для понимания граничных условий и нюансов данных, а также производственные инженеры, которые понимают, как модели будут развернуты в реальном мире.

Визуализация — драгоценный камень науки о данных

В дополнение к взвешиванию и моделированию данных, специалисты по анализу данных также получают пользу от визуализации данных, что является очень ручным процессом и скорее искусством, чем наукой. Построение графиков сырых данных, корреляций между данными и прогнозируемыми величинами, а также временных рядов коэффициентов, полученных в результате оценок во времени, позволяет получить наблюдения, которые можно использовать в процессе построения модели.

Вы можете заметить периодичность в данных, возможно, эффект дня недели или аномальное поведение в праздничные дни. Вы можете обнаружить экстремальные изменения коэффициентов, которые указывают на то, что алгоритмы обучения плохо справляются с отклонениями в данных. Вы можете заметить различное поведение в подмножествах данных, что говорит о том, что вы можете выделить подмножества данных для создания более точных моделей. Опять же, алгоритмы самоорганизующегося обучения могут быть использованы для того, чтобы попытаться обнаружить некоторые из этих скрытых закономерностей в данных. Но человек может быть лучше подготовлен к поиску этих закономерностей, а затем использовать их в процессе построения модели.

Горизонтальные платформы MО нуждаются в мониторинге

Еще одна важная роль, которую играют люди в развертывании систем ИИ на основе MО, — это мониторинг моделей. В зависимости от типа используемой модели, того, что она предсказывает, и того, как эти предсказания используются в производстве, необходимо отслеживать различные аспекты модели, чтобы выявлять отклонения в поведении и предвидеть проблемы до того, как они приведут к ухудшению реальной производительности.

Если модели переобучаются на регулярной основе с использованием более свежих данных, важно отслеживать согласованность новых данных, поступающих в процесс обучения, с ранее использованными. Если производственные инструменты обновляются с помощью новых моделей, обученных на более свежих данных, важно убедиться, что новые модели настолько похожи на старые, насколько можно ожидать, причем ожидания зависят от модели и задачи.

Очевидно, что применение автоматизации для решения широкого круга задач во многих отраслях приносит огромную пользу, но человеческий интеллект по-прежнему остается неотъемлемой частью этих разработок. Вы можете в определенной степени автоматизировать поведение человека и в контролируемой среде воспроизвести мощь и производительность его работы с помощью систем ИИ на базе MО, не требующих кодирования. Но в мире, где машины по-прежнему в значительной степени зависят от человека, никогда не стоит забывать об интеллектуальной силе людей.