Данные с низкой задержкой полезны для выбора и обновления характеристик и весов модели для получения более точных результатов, рассказал порталу The New Stack Гюль Эге, старший директор SAS по продвинутой аналитике.

Некоторые из наиболее сложных методов анализа данных в реальном времени предполагают обучение продвинутых моделей машинного обучения, развернутых в производстве. При таком подходе весовые коэффициенты и характеристики моделей постоянно обновляются с учетом самых последних данных.

Соответственно, результаты работы моделей становятся более точными, конкретными и точными для узкоспециализированных сегментов любого конкретного сценария использования.

Платформы потоковых данных и движки потоковых данных идеально подходят для такой формы анализа данных в реальном времени, поскольку они предоставляют текущие данные, необходимые для адаптации реакций модели с малой задержкой. Эти данные используются в процессе выбора характеристик, что позволяет моделям адаптироваться к огромному количеству обстоятельств, влияющих на их результаты.

По словам Гюля Эге, «очень важно, чтобы данные о продукте и пользователе, их характеристиках и выборе обновлялись, а модель обновлялась по мере их изменения».

Поддерживаемые сценарии использования охватывают все сферы — от мониторинга компьютерного зрения до онлайновых рекомендательных систем, страховых технологий, электронной коммерции и т. д. При таком широком разнообразии приложений возможность одновременного обучения и развертывания моделей МО становится все более важной для развития анализа данных в реальном времени.

Обучение в производстве

Хорошим примером полезности обучения моделей МО в процессе их эксплуатации являются рекомендательные системы. Независимо от конкретного применения, эта методология считается продолжением той, в которой модели обучаются в автономном режиме, развертываются в режиме онлайн, а затем их результаты сравниваются с результатами в автономном режиме, чтобы увидеть, изменились ли оценки. Дихотомия процесса отбора характеристик для этих приложений иллюстрируется примером из области рекламных технологий, когда рекомендации в реальном времени отображают рекламу на основе последних кликов человека на сайте электронной коммерции.

«У вас есть характеристики продукта и характеристики человека, и то, что должна рекомендовать система, зависит и от тех, и от других», — уточняет Эге. Хотя особенности продукта могут быть не такими динамичными, как особенности пользователей, просматривающих сайт, способность согласовывать их в реальном времени с последними данными очень важна для создания своевременных и релевантных рекомендаций.

«Особенности — это поведение конечного пользователя, его взаимодействие с сайтом, — прокомментировал Эге. — И у продукта есть особенности. Если я ищу красную юбку, пожалуйста, не показывайте мне синие брюки или сумочку».

Исторические данные

Несмотря на быстроту получения данных для выдачи рекомендаций при таком подходе, особенности модели также определяются некоторыми историческими данными. Период обучения редко бывает мгновенным и часто носит непрерывный характер, когда модель со временем становится лучше. По словам Эге, во многих случаях, когда модели обучаются, развертываются и обновляются в режиме онлайн, «некоторым из них требуется некоторое время для разогрева. Вы можете начать с первой оптимизации, скажем, клиента, совершающего транзакцию. А потом этот же клиент возвращается снова и совершает еще одну. Таким образом, модель прогревается со временем».

Каждая из моделей поведения в соответствующих транзакциях влияет на то, что модель узнает о данном клиенте, о других подобных ему клиентах или о том, как еще организации сегментировали данные для прогнозирования с помощью моделей. «Пока действуют эти [поведенческие] модели и известна история их существования, вы можете строить историю в режиме онлайн и давать рекомендации», — отмечает Эге. Результаты часто улучшаются за счет использования нескольких моделей — и алгоритмов — для решения конкретной бизнес-задачи.

В случае InsurTech (когда котировки и различные страховые продукты предлагаются клиентам в режиме реального времени после ввода ими информации в Интернете) организации «могут иметь несколько алгоритмов, которые лучше подходят к конкретным ситуациям, — замечает Эге. — У всех у них несколько разная доступность данных. Это зависит от того, какой объем истории у вас есть и какими возможностями вы располагаете. Это разные варианты одной и той же проблемы».

Обучение в автономном режиме, развертывание и оценка в режиме онлайн

Несмотря на существующую склонность к ускорению процесса анализа данных путем одновременного обучения и развертывания моделей в режиме онлайн, все же существуют ситуации, в которых анализ данных в реальном времени выигрывает от разделения этих двух этапов. Нередко модели создаются и обучаются в автономном режиме, а затем развертываются в режиме онлайн с использованием данных о событиях в реальном времени для оценки моделей и их результатов, а затем сравниваются с результатами работы в автономном режиме.

Одной из определяющих характеристик для использования этого проверенного временем метода является количество и вариативность данных, необходимых для обучения модели. Эти проблемы особенно актуальны в тех случаях, когда «методика или проблема требует большего объема данных, чем тот, который поступает в эту большую модель», — отмечает Эге.

Обучая модели в автономном режиме, организации получают бóльшую свободу действий, позволяющую использовать для обучения моделей более широкий набор данных и бóльшие объемы исторических данных — например, финансовые отчеты для определения оттока клиентов за несколько лет. Основная предпосылка заключается в том, что такие модели «должны быть обучены на достаточном количестве данных, чтобы зафиксировать нормальные показатели, а затем при их развертывании можно было бы зафиксировать аномальные», — поясняет Эге.

Это требование относится к некоторым приложениям для обнаружения аномалий. После завершения периода обучения этих моделей в автономном режиме пользователи могут оценивать их в режиме онлайн, чтобы отслеживать их работу с помощью потоковых данных. В качестве примера можно привести «компьютерное зрение для контроля качества, — говорит Эге. — Если вы производите что-то, и на изделии появляется трещина или что-то еще, то чем быстрее вы это обнаружите и снимете с производства, тем меньше денег потеряете».