Почему инициативы многих организаций в области искусственного интеллекта терпят неудачу? Все сводится к трем основным препонам: неправильные данные в неправильной инфраструктуре в неправильное время, пишет на портале The New Stack Эд Ануфф, директор по продуктам компании DataStax.

Вы ищете на своем iPhone конкретную фотографию вашего друга, сделанную пару лет назад. Вам предстоит перебрать тысячи изображений, но на помощь приходит приложение Apple Photo. И вот все готово! За несколько секунд вы находите нужную фотографию.

Для того чтобы это произошло, за кулисами работает множество механизмов, включая распознавание лиц, анализ изображений и автоматическую маркировку, которые объединяются, чтобы сэкономить усилия, делая выводы о том, что нужно или хочется, а затем действуя в соответствии с этими выводами в режиме реального времени.

Такие компании, как Apple, а также Google, FedEx, Uber, Netflix и некоторые другие, потратили годы на создание систем и архитектур, которые позволяют сделать пользовательский опыт более простым, индивидуальным и интуитивно понятным. В некоторых случаях ИИ позволяет принимать ключевые решения практически мгновенно или прогнозировать в режиме реального времени, что дает бизнесу возможность улучшать результаты в нужный момент.

Эти возможности не остались незамеченным и для более широкого круга предприятий: согласно опросу Deloitte «2022 State of AI in the Enterprise», 94% руководителей предприятий утверждают, что ИИ имеет решающее значение для успеха.

Так почему же для большинства организаций создание успешных приложений ИИ представляет собой огромную проблему? Все можно свести к трем основным проблемам: неправильные данные в неправильной инфраструктуре в неправильное время.

Препятствия на пути к успеху ИИ

По данным McKinsey, ИИ внедрили уже 56% компаний, но, как отмечается в отчете Accenture, только 12% удалось добиться превосходного роста и трансформации бизнеса с помощью ИИ.

На пути успешного внедрения ИИ в приложения реального времени лежит множество камней преткновения, но большинство из них связаны с одним главным элементом: данными.

Многие традиционные системы МО/ИИ и результаты, которые они выдают, опираются на хранилища данных и пакетную обработку. В результате, для того чтобы «доставить» эти исторические данные в системы МО, требуется сложный набор технологий, перемещений и преобразований данных.

Данные, поступающие в модель MО, называются признаками (измеримыми свойствами, которые можно использовать для анализа), обычно они хранятся в базе данных приложения или записаны в файлах журналов. Они часто требуют преобразования, например, масштабирования значений или вычислений на основе предыдущих записей (например, скользящего среднего на момент создания записи).

Это обычно замедляет поток данных от ввода до принятия решения и получения результата, что приводит к упущенным возможностям, которые могут привести к оттоку клиентов или к тому, что распознанные модели угроз кибербезопасности остаются необнаруженными и неустраненными. Все проблемы можно суммировать как наличие несоответствующих наборов данных, поддерживаемых несогласованной инфраструктурой, которая работает слишком медленно.

Неправильные данные...

Из-за огромного объема данных (и связанных с этим расходов) их приходится агрегировать для удобства транспортировки и доступности. Проще говоря, агрегированные или избыточно преобразованные данные не позволяют организациям легко определять правильные действия в режиме реального времени и снижают вероятность достижения желаемого результата, будь то предлагаемый продукт, обновленный маршрут доставки посылки или корректировка настроек станка на заводе. Это замедляет способность организации находить ответы на новые вопросы, прогнозировать результаты или адаптироваться к быстро меняющемуся контексту.

Специалисты по анализу данных вынуждены использовать грубые наборы данных, которые позволяют делать нечеткие прогнозы, что, в свою очередь, не приводит к ожидаемому эффекту для бизнеса, особенно в таких дискретных контекстах, как сеанс связи с клиентом. Они также могут не знать, когда перенастраиваются приложения или изменяются источники данных, что приводит к тому, что существенные события не учитываются в признаках. Отсутствие данных приводит к неинформированному принятию решений при выборе моделей. Это приводит к менее точному прогнозированию, или, что еще хуже, модели, использующие ошибочные данные, могут привести к неверным решениям.

Наконец, агрегирование сфокусировано на существующих признаках. Инжиниринг новых признаков — обработка данных, необходимых для выбора и обучения моделей — требует возвращения к исходным данным для других агрегаций. Эта дополнительная обработка значительно замедляет работу специалистов по анализу данных, удлиняя процесс экспериментов.

... в неправильной инфраструктуре

Вторая проблема связана с нынешними инфраструктурами MО, на которых базируются инициативы в области ИИ, и их неспособностью обрабатывать массивы данных в масштабе. Качество моделей и их результатов растет с увеличением объема поступающих данных о событиях. Организациям часто требуется обрабатывать огромные количества событий, с чем не могут справиться устаревшие инфраструктуры.

Последовательность обучения моделей, необходимая для получения выводов, оказывается очень сложной, особенно когда требуется перемещение данных между моделями. Попытка справиться с масштабами, необходимыми для качественного прогнозирования, доводит традиционные архитектуры до предела. Кроме того, это очень медленно, ненадежно и дорого. Все это ставит под угрозу ценность и влияние приложений, которые все чаще становятся критически важными.

... в неподходящее время

Еще один камень преткновения возникает из-за того, что данные обрабатываются слишком поздно, чтобы оказать существенное воздействие. Современные архитектуры требуют для обслуживания модели обработки данных в нескольких системах, и это вносит задержку, которая отрицательно влияет на ИИ-инициативы:

  • Вывод модели не может изменить ход развития ситуации. Например, она предлагает покупателю предложение в тот момент, когда коэффициент конверсии снизился, и покупатель, возможно, уже приобрел что-то другое.
  • Время, необходимое для обслуживания моделей и получения результата, не соответствует ожиданиям от цифрового опыта или автоматизированного процесса. Иногда может пройти несколько дней, прежде чем данные будут готовы к обработке. На высококонкурентных рынках данные такой давности в лучшем случае неактуальны, а в худшем — опасны (примером служит приложение для совместных поездок, применяющее повышенные цены во время кризиса или стихийного бедствия).
  • Специалисты по анализу данных не имеют доступа к последним данным. Это может повлиять на результаты моделирования и потребовать тратить драгоценное время на поиск дополнительных точек или источников данных.

Многие существующие инфраструктуры MО не могут обслуживать приложения, поскольку они слишком дорогие, слишком сложные и слишком медленные. А изменения в нормативно-правовой базе могут со временем потребовать от организаций более подробных объяснений того, как модели обучались и почему они пришли к тому или иному решению. Такой уровень видимости невозможен в текущих архитектурах из-за обработки, агрегирования и разнообразия задействованных инструментов.

Проблема многих инфраструктур заключается в пути, который данные должны пройти до приложения, управляемого ИИ. Решение этой проблемы, если упрощенно, заключается в обратном подходе.

Привнесение ИИ в данные

Лидеры, такие как компании, упомянутые в начале этой статьи, добиваются успеха, собирая огромные объемы данных в режиме реального времени от клиентов, устройств, датчиков или партнеров по мере того, как они проходят через их приложения. Эти данные, в свою очередь, используются для обучения и обслуживания их моделей. И компании действуют на основе этих данных в каждый конкретный момент, обслуживая миллионы клиентов в режиме реального времени.

Еще одной важной составляющей успеха лидеров является тот факт, что они собирают все данные на самом гранулированном уровне — событий с временными отметками. Это означает, что у них не просто много данных; они всегда могут узнать, что произошло и когда.

Ведущие предприятия, такие как Netflix, FedEx и Uber, «переносят ИИ туда, где находятся данные», чтобы делать выводы «там, где живет приложение». Другими словами, они внедряют свои модели MО в свои приложения, агрегируют событийный данные в реальном времени через потоковые сервисы и предоставляют эти данные моделям MО. И у них есть база данных (у трех вышеупомянутых лидеров это высокопроизводительная база данных NoSQL с открытым исходным кодом Apache Cassandra), которая может хранить огромные объемы данных о событиях.

С правильной унифицированной платформой данных инициативы MО располагают правильной инфраструктурой и правильными данными. Инженеры по данным и специалисты по анализу данных могут «выйти из изоляции» и согласовать свои процессы инжиниринга признаков, экспериментирования с моделями, обучения и получения выводов для создания мощных прогнозов. Хотя для этих процессов по-прежнему требуется множество инструментов, все они работают на основе одних и тех же данных.

Самые успешные приложения, работающие на базе ИИ, являются таковыми благодаря постоянному совершенствованию опыта, который они предоставляют конечным пользователям, на основе огромного объема данных о событиях. Их способность обслуживать миллионы клиентов и становиться по мере этого"умнее" позволяет им формировать рынки, на которых они находятся.