Поставщики технологий RPA все чаще настраивают их взаимодействие с алгоритмами ИИ, чтобы расширить существующие возможности роботов. К примеру, интеграция RPA с инструментами компьютерного зрения позволяет компаниям решать актуальные бизнес-задачи. Но есть загвоздка: это долго и дорого. Рассмотрим, как RPA-вендоры решают эту проблему вместе с партнерами.

В последние несколько лет технология роботизации бизнес-процессов стала популярна среди клиентов и аналитиков. Этому во многом способствовал тот факт, что RPA может улучшать качество, скорость и производительность бизнес-процессов с минимальными затратами на саму автоматизацию, и инвестиции в роботов быстро окупаются. С 2018 года экосистема RPA — самый быстрорастущий сегмент глобального рынка корпоративного программного обеспечения. И это вряд ли изменится в ближайшие годы: Gartner прогнозирует, что объем рынка роботизации будет расти двузначными темпами вплоть до 2024 года, несмотря на экономическое давление со стороны COVID-19.

Если эта тенденция сохранится, RPA достигнет «почти всеобщего внедрения» в следующие пять лет, считают в Deloitte. Возникает резонный вопрос: «Что дальше?».

Будущее — за интеллектуальной роботизацией (IPA), считают эксперты и аналитики рынка. Хотя программные роботы могут беспрепятственно взаимодействовать со структурированными данными и автоматизировать бизнес-процессы, основанные на правилах, область их применения для решения более сложных задач ограничена. Эту проблему можно решить, есть интегрировать RPA-инструменты с «умными» технологиями, такими как машинное обучение и компьютерное зрение.

Как роботы учатся «видеть»

90% данных организаций обычно не структурированы: это изображения, видео, PDF-файлы, рукописные документы. Именно поэтому для обработки визуальных данных роботы задействуют технологии компьютерного зрения. В частности, инструменты оптического распознавания символов и обнаружения объектов.

Многие люди до сих пор путают понятия «компьютерное зрение» (CV) и «оптическое распознавание символов» (OCR). OCR — это подраздел компьютерного зрения, предназначенный для выполнения всего одной задачи: распознавания текста. Технология помогает оцифровывать печатные, печатные и некоторые рукописные тексты, преобразуя аналоговые символы в цифровые. Сегодня, помимо OCR, компьютерное зрение включает в себя более сложные области, такие как распознавание образов, обработка сигналов, обнаружение объектов.

История компьютерного зрения — намного дольше, чем принято считать. Еще в 1955 году профессор Массачусетского технологического института (MIT) Оливер Селфридж опубликовал статью «Глаза и уши для компьютера», в которой выдвинул идею оснащения компьютера средствами распознавания звука и изображения. А первые системы обработки изображений появились в 1960-х. Технология была разработана для того, чтобы научить компьютеры «видеть» изображения, как если бы это был человек, и понимать их содержание. Для этого используются алгоритмы искусственного интеллекта (AI) и машинного обучения (ML).

Сейчас технология быстро набирает популярность и используется в огромном количестве отраслей, от промышленности до здравоохранения. К примеру, в таких сценариях, как автоматическое распознавание автомобиля на платной парковке или расположение товара на полках супермаркета в соответствии с предпочтениями потребителей.

Как это работает?

Процесс распознавания отчасти напоминает сбор пазлов. Нейронная сеть различает множество элементов изображения, фиксирует их границы, анализирует и собирает из них картинку. И хотя компьютер не получает единого изображения, он может определить, какому объекту с большой вероятностью принадлежат указанные элементы.

Для этого нейросеть обучается на большом наборе данных. К примеру, для того чтобы определить, что на фото изображена кошка персидской породы, нейросеть должна проанализировать миллионы изображений кошек и понять, какие характеристики им присущи. Обычно процесс происходит в несколько этапов:

  • получение данных и разметка;
  • обработка датасета;
  • обучение модели;
  • тестирование модели;
  • улучшение модели.

Раньше на первом этапе разработчикам приходилось делать множество снимков и вручную маркировать каждый из них. Это было дорого и медленно. К счастью, ручная разметка ушла в прошлое. Сейчас есть способ делать это иначе — синтетические данные.

Что такое синтетические данные

Синтетические данные нужны для того, чтобы ускорить процесс распознавания объектов. Дело в том, что для решения любой задачи в области компьютерного зрения требуется свой большой набор данных для обучения нейросети. Причем все фотографии, фрагменты видео, куски текста должны быть размечены: каждому объекту на изображении присваивается метка, обозначающая его принадлежность к конкретному классу или функциональные характеристики. К примеру, в ритейле для разметки используют SKU — идентификаторы товарной позиции.

Делать это вручную — задача весьма трудоемкая, а иногда и вовсе невыполнимая. Так, даже при наличии огромного штата специалистов, готовых расшифровать и маркировать миллионы КТ-снимков, их просто неоткуда взять.

Синтетические данные, представляющие собой наборы программно сгенерированных изображений, решают эту проблему. Идея довольно проста: вместо обработки и разметки миллионов готовых изображений, можно сделать 3D-модель конкретного объекта и поместить его в нужное виртуальное окружение, воспроизводящее реальную среду. А затем провести рендеринг, то есть отрисовку изображений на основе 3D-модели с разных ракурсов. Так можно получить весь необходимый для обучения нейросети объем данных. Разметка при таком способе получения данных производится автоматически и со 100%-ной точностью.

При использовании синтетических данных процесс создания модели для распознавания объектов несколько видоизменяется:

  • разработка 3D-модели;
  • генерация виртуальных данных с разметкой;
  • автоматическое обучение модели;
  • тестирование модели;
  • улучшение модели.

Благодаря тому, что первые три этапа в такой схеме производятся в полностью автоматическом режиме, удается сократить время, за которое модель может быть развернута. Плюс увеличивается точность распознавания, ведь разработчики могут воспроизвести столько изображений объекта для датасета, сколько им нужно. Другими словами, они получают доступ к неограниченному объему данных.

Где используются синтетические данные

Чаще всего синтетические данные используют в процессе обучения моделей, предназначенных для обнаружения объектов, таких как люди, товары, здания или автомобили, на цифровых изображениях или видео. К примеру, распознавания лиц пешеходов с live-видео. И крайне редко применяют для решения задач в области распознавания текстов.

Причем они наиболее полезны там, где нужно в режиме реального времени распознавать специфические объекты и мгновенно передавать данные в RPA. Давайте для иллюстрации рассмотрим два примера:

  • мониторинг автомобилей на парковке.
  • мониторинг полок в торговом зале супермаркета.

В первом случае нейросеть должна идентифицировать на видео все объекты, которые можно так или иначе отнести к классу автомобилей. Поэтому модель для распознавания будет достаточно простой — ее можно создать. Это часть экосистемы, позволяющая компаниям легко развертывать, управлять и улучшать свои модели машинного обучения. Затем информацию можно передать в RPA для автоматического подсчета количества машин и внесения данных в учетные и другие ИС.

Во втором примере задача сложнее: на одной полке может находиться несколько категорий товаров или торговых марок. Каждую из категорий необходимо маркировать определенным образом. Если делать это вручную, процесс затянется. И даже в таком случае будет подвержен ошибкам человеческого характера.

Поэтому эту задачу можно выполнить двумя путями. Во-первых, обратиться к технологическим партнерам, которые создают инструменты компьютерного зрения. Во-вторых, воспользоваться технологиями компьютерного зрения на базе синтетических данных, такими как платформа Neurolabs. В любом из этих случаев передать данные в RPA-систему можно всего в несколько кликов. А точность распознавания будет существенно выше, чем при использовании традиционного метода.

Дешевле, быстрее, лучше

Таким образом, синтетические данные позволяют демократизировать компьютерное зрение, разрушив препятствия на пути его внедрения. Дорогие и редкие реальные снимки, видеозаписи, необходимые для обучения алгоритмов компьютерного зрения, заменяются синтетически сгенерированными изображениями. Это позволяет создавать большие, разнообразные наборы подходящих для обучения данных в считанные минуты. Благодаря такому подходу ускоряется процесс распознавания объектов, в том числе для использования RPA-системами.

Светлана Анисимова, генеральный директор UiPath в России