Переход от традиционного бумажного документооборота к безбумажным технологиям, который мы наблюдаем в настоящее время, не только радикально ускоряет скорость бизнес-процессов компаний и обеспечивает экономию средств при отказе от бумажных носителей, но и таит в себе скрытый, потенциальный эффект — возможность применения технологий искусственного интеллекта для минимизации рутинных операций в обработке электронных документов. Мы решили рассмотреть возможности технологий искусственного интеллекта применительно к знакомым и понятным всем задачам автоматизации документооборота предприятий. Как это поможет бизнесу еще больше ускорить внутренние процессы и повысить их качество?

Немного о предпосылках

Переход на электронный документооборот хоть и ускоряет процессы обработки документов радикальным образом, но не изменяет сути этих процессов. Переход от бумажных журналов учета в делопроизводстве к электронным, замена наложения резолюции «на бумаге» на возможность создать задание по документу на планшетном устройстве, автоматическая фиксация электронного журнала согласования вместо ведения бумажного листа согласований — это, безусловно, удобнее, но не меняет сути процесса обработки. Однако возможности кардинального изменения этих процессов и соответствующего повышения их эффективности существуют, что открывает огромные перспективы развития СЭД. В чем они заключаются?

С одной стороны, при переходе на электронный документооборот в информационной системе день за днём накапливается информация об уже реализованных сценариях обработки информации: данные о том, какие типовые операции выполняли пользователи системы при обработке документов, какие решения принимали участники бизнес-процессов на основании содержимого документов и другой информации, которая эти бизнес-процессы сопровождает. Важная характеристика этой информации, в отличие от аналогичной при бумажном документообороте, в том, что она доступна для машинной обработки и может служить исходным материалом для применения технологий машинного обучения.

С другой стороны, бурное развитие технологий искусственного интеллекта, и машинного обучения в частности, сделало доступным и относительно недорогостоящим применение этих технологий в создании специализированных решений. Именно они обеспечат максимальную эффективность работы с документами и с лёгкостью избавят сотрудников от рутинных операций.

Технологии

В процессах документооборота можно выделить две наиболее трудоемкие операции — перевод документов из бумажного в электронный машиночитаемый вид и поиск документов. Не случайно именно эти две области привлекли внимание разработчиков в первую очередь.

Классические подходы к реализации систем искусственного интеллекта

Технологии распознавания и поиска документов уже не являются чем-то новым и весьма распространены, но в последнее время они приобрели новое звучание, связанное с развитием технологий ИИ. Если традиционные задачи распознавания сводились к переводу в цифровой вид отдельных букв и символов — полнотекстовому распознаванию, и пределом был разбор их семантики, исходя из привязки наборов символов к определенным позициям в бумажной форме документа (распознавание форм), то в настоящее время системы искусственного интеллекта позволяют сделать гораздо большее. Например, выделять отдельные смысловые данные из документа не в соответствии с привязкой к позиции в тексте документа, а в соответствии с их смыслом. Так, платформа Compreno, разработанная российской компанией ABBYY, предоставляет в распоряжение разработчиков механизмы, обеспечивающие возможности не только перевода бумажных документов в машиночитаемый вид, но и извлечения из плоского текста, не представленного в виде структурированной формы, отдельных слов и связанных выражений с определенной семантикой. Скажем, в тексте договора могут быть выделены атрибуты и словосочетания, которые характеризуют предмет договора, юридические адреса контрагентов и фамилии ответственных лиц, суммы договора и другие структурированные данные. Для этого используются специальные технологии высокоуровневого семантического анализа текста на основе так называемых онтологий (специальных словарей, описывающих те или иные предметные области). Создание этих онтологий реализуется специалистами лингвистами, и система переносит их знания описываемых предметных областей в область компьютерных технологий. Этот пример иллюстрирует один из двух классических подходов к реализации систем искусственного интеллекта — так называемый нисходящий подход, который позволяет смоделировать в компьютерной системе высокоуровневые психологические процессы, происходящие в сознании человека. Эти технологии семантического разбора текста и выделения отдельных смысловых сущностей могут применяться не только для автоматического поиска атрибутов (метаданных) в документах, но и для решения других задач, например: интеллектуального поиска документов не на основе синтаксического анализа (наличия тех или иных лексических конструкций и их вариаций в тексте), а на основе смысла поискового запроса; для задач автоматической классификации потока входящих документов: например, для определения места хранения или запуска тех или иных процессов их обработки и т. д.

Второй подход — восходящий, моделирует интеллект на основе аналогов его биологических структурных элементов — так называемых нейронных сетей — и позволяет реализовать механизмы машинного обучения.

Машинное обучение — каков принцип?

Машинное обучение — это способ выявления скрытых закономерностей принятия тех или иных решений на основе массива накопленных данных. Упрощенно механизм машинного обучения можно продемонстрировать на таком примере. Мы имеем эталонный массив документов, которые вручную отнесены к тем или иным категориям на основании их содержимого. Чтобы применить технологии машинного обучения, необходимо сделать предположение о критериях принятия решения. Допустим, документы относятся к той или иной категории, исходя из наличия определенных ключевых слов в тексте, и определенного набору метаданных. Когда предположение о модели принятия решения сформировано, может быть сгенерирована виртуальная нейронная сеть с неопределённой внутренней структурой, которая на вход получает данные о наличии ключевых слов в экземпляре документа из эталонного массива, а выходом ее становится отнесение документа к той или иной категории.

Изначально структура сети не определена. Процесс обучения таков: на вход подается конкретный экземпляр документа из эталонной выборки, для которого фиксируется соответствующая категория на выходе — в результате производится прошивка структуры нейронной сети. Начиная с определенного шага обучения (формирования структуры сети), она уже может начинать давать предсказания результата (в нашем случае — относить ли документ к той или иной категории). Если предположение о критериях принятия решения были сделаны верно, то по мере роста обучающей выборки вероятность адекватного предсказания должна увеличиваться, в противном случае необходимо изменить гипотезу о критериях.

Если мы сформировали правильные критерии и имели достаточное количество актов обучения (элементов эталонной выборки), то после окончания «обучения» мы получим структуру, которая будет с высокой степенью вероятности относить произвольный документ, содержащий те или иные ключевые слова и метаданные, к той или иной категории. В пределе точность будет абсолютно такой же, как если бы это делал эксперт, который формировал эталонную выборку «вручную», и даже более того: система на базе машинного обучения лишена недостатков и не допускает случайных ошибок. Богатое разнообразие инструментов позволяет сегодня формировать разные варианты систем искусственного интеллекта с использованием нейросетей и машинного обучения для прикладных задач. На практике наибольшее распространение получили две задачи ИИ — классификации и регрессии, а также всевозможные их производные. Задача классификации сводится к отнесению объекта к тому или иному классу из конечного списка (пример, который мы рассмотрели выше). Задача регрессии отличается тем, что в результате работы алгоритма объекту присваивается один или более числовой параметр: например, можно построить алгоритм предсказания времени подготовки ответа на входящий документ, в зависимости от его содержания и других параметров, на основе накопленной базы прецедентов.

Возможное применение

Итак, вариантов применения технологий ИИ в области документооборота бесконечное количество, и очевидно, что по мере совершенствования технологий, будут появляться все новые и новые. Сегодня чаще всего ИИ используют для решения трех типов задач — интеллектуального поиска документа, автоматической классификации и автоматического извлечения атрибутов (метаданных) из текста документов. Современные СЭД, как правило, предлагают под эти задачи готовые или настраиваемые решения.

Автоматическое формирование метаданных документа позволяет автоматизировать самые разнообразные сценарии обработки документов: например, автоматическую регистрацию документов в системе, автозапуск тех или иных процессов их обработки, назначение ответственных за ход обработки процессов, назначение сроков исполнения и т. д. Есть и менее общие применения технологий ИИ в СЭД, ориентированные на конкретные процедуры обработки — и дальше мы рассмотрим разные примеры применения технологий ИИ, которые кажутся нам интересными и перспективными, а некоторые из них уже реализуются в рамках пилотных проектов.

Вот примеры использования технологий ИИ для уменьшения рутинных операций в задачах классического документооборота:

  • Антиплагиат и поиск аналогов текстов. Эта задача наиболее востребована в системах управления научно-исследовательскими разработками, в организациях, занимающихся обучением, и в системах управления интеллектуальной собственностью. Для выявления заимствований обычного синтаксического поиска прецедентов по совпадению отдельных таксовых фрагментов, как правило, недостаточно, необходимо анализировать именно смысловое содержание текста.
  • Автоматическое создание заданий или определение процесса обработки для документов, поступивших в информационную систему, например, по сообщениям электронной почты с определением ответственных исполнителей, сроков исполнения или параметров обрабатывающего их процесса.
  • Одна из классических задач СЭД — формирование резолюций руководителем во исполнение распорядительных или входящих документов. Как правило, резолюции носят типовой характер и назначаются из специального справочника. При наличии достаточной истории документов с зафиксированными резолюциями может быть построена система, которая будет автоматически проставлять типовые резолюции и ответственных исполнителей на схожих документах и передавать документы на рассмотрения руководителю только в особых нетривиальных случаях.
  • То же касается потока обработки обращений граждан, требующих обработки в жестко регламентированные сроки, и часто имеющих типовой характер: наличие настроенной системы искусственного интеллекта позволит избавить ответственных сотрудников от большого количества рутины по обработке однотипных обращений, подразумевающих типовые формы ответа, или маршрутизацию в смежные организации, и позволит им сконцентрироваться на обращениях, требующих рассмотрения по существу.
  • Поиск документов: полученных от контрагентов и связанных с документами, хранящимися в СЭД; документов, полученных в ответ на, документов, дополняющих и раскрывающих смысл основного, и пр. В простейшем случае на связь документов может указывать наличие явных ссылок в тексте документов, но связь может быть определена и более сложным образом, например схожим содержимым, и для определения этих связей потребуются специальные механизмы.

Очевидно, что необходимость применения технологий искусственного интеллекта в вышеозначенных примерах — это следствие отсутствия структуры у обрабатываемого контента. При наличии достаточного количества метаданных, описывающих различные атрибуты документа, эти же задачи можно было бы решать на основе жестких формальных правил обработки, однако устранение неструктурированного контента из бизнес-процессов организации — дело далекого будущего.

Особые перспективы технологии искусственного интеллекта открывают в области автоматизации корпоративных процессов и их оптимизации. Вот некоторые примеры возможностей ИИ в области процессного управления:

  • Автоматическое назначение продолжительности этапов ручной обработки в бизнес-процессах. Система управления процессами может сама прогнозировать оптимальные сроки исполнения тех или иных этапов на основании накопленной информации о их трудоемкости.
  • Подбор маршрута согласования для документа на основании его содержимого, учета загруженности персонала и компетенции сотрудников.
  • Планирование времени завершения процесса и определение его плановых метрик на основе накопленной информации о прецедентах.
  • Предсказание нарушения плановых сроков по процессам и отдельным задачам, оптимизация процессов в ходе их исполнения — изменение приоритета незавершённых задач, контрольных сроков, автоматическое делегирование заданий с учетом загрузки сотрудников и их компетенции и пр.
  • Завершение заданий в случае критического нарушения сроков, генерация результатов согласования и отчётов по заданию на основе прецедентов.
  • Выявление скрытых регламентов, типовых сценариев обработки документов на основании накопленной истории свободной маршрутизации. Система может анализировать типовые способы обработки и формировать шаблоны процессов.

И это далеко не полный список возможного применения технологий ИИ в области процессного управления.

Помимо этих общих случаев в каждой предметной области могут быть найдены различные специфические применения описанным технологиям. Вот несколько известных реализованных примеров:

  • автоматический нормоконтроль (проверка соответствия конструкторских и технологических документов формальным требованиям системы менеджмента качества) в проектных и конструкторских организациях;
  • поиск судебных прецедентов в системах управления претензионно—исковой работой;
  • поиск типовых ответов на заявки в службах Service Desk и контакт-центрах;
  • автоматический аудит соблюдения регламентов использования документов и поиск следов возможных злонамеренных действий в системах управления безопасностью;
  • и многое другое.

Компаниям, которые активно используют системы электронного документооборота и планируют их развитие, стоит обращать внимание на ситуации, когда даже работа даже с электронными документами становится трудоёмкой и приводит к повторяющимся рутинным действиям. Скорее всего, возможно решение, которое позволит перевести процесс на новый уровень, за счёт интеграции технологий ИИ — это осуществляется в рамках проектной разработки. Очевидно, что мы находимся в самом начале использования искусственного интеллекта в области документооборота, но отдельные проекты и готовые решения уже сегодня демонстрируют практику и перспективы использования этих технологий.

Автор статьи — президент компании «ДоксВижн».

Версия для печати