ПЕРЕДОВЫЕ ТЕХНОЛОГИИ

Технологии сканирования и распознавания текстовых документов - сегодня уже довольно обыденное явление. И, тем не менее, для их использования в конкретных видах деловых процессов разработчикам зачастую приходится решать качественно новые научно-технические задачи.

По статистике, каждому из нас приходится в среднем не менее 10 раз в год обращаться в различные учреждения и организации, предъявляя при этом некоторый набор документов (паспорт, водительское удостоверение и др.), а также заполненные стандартные бланки анкет. Так, представление документов необходимо при оформлении кредитов и открытии счетов в банках, в страховых компаниях, при покупке авиабилетов и прохождении паспортного контроля и т.д. В каждом случае должностное лицо производит прием ксерокопий документов, проверяет данные и обращается к соответствующим базам данных для верификации полученной информации. И хотя рабочие места практически всех операторов к настоящему времени оборудованы персональными компьютерами и копировальными аппаратами, ввод документов и сверка правильности заполнения производится вручную.

Альтернативу для регистрации паспорта и ряда других стандартных документов предложили специалисты компании Cognitive Technologies. Ими разработано новое технологическое решение Scanify, позволяющее получать более качественные изображения документов, к которым применимы технологии оптического распознавания. Хотя его разработка была выполнена еще в 2004 г., а сама технология уже нашла применение в ряде проектов, одно из первых ее публичных представлений состоялось на прошедшей в конце мая конференции DOCFLOW’2005.    

 

 

Последовательность обработки документа с помощью Scanify:

ввод полноцветного изображения; распознавание типа документа и

применение "персональной" схемы обработки; обеспечение высокого

результата распознавания

Постановка задачи, решаемой с помощью технологии Scanify, выглядит следующим образом. В рамках некоторого бизнес-процесса через сканер одновременно пропускается несколько документов. Состав пакета документов известен для каждой конкретной операции, и система специальным образом обучена для работы с ними. Задача состоит в необходимости идентифицировать отсканированные документы, выделить и распознать в них значимую информацию, проверить ее корректность (например, сверить паспортные данные с данными, указанными в анкете) и передать сформированный пакет данных для дальнейшей обработки.

Для решения такой задачи нужно выполнить следующие операции.

- Идентификация документа по графическому образу. Отсканированный графический образ может содержать несколько документов; например, паспорт и водительское удостоверение удобнее сканировать за один проход, разместив их на стекле сканера одновременно. Система должна узнавать на общем графическом образе отдельные документы, выделять их и применять к ним персональную схему обработки.

- Идентификация полей ввода данных на документе. На сегодня эта задача успешно решается системами ввода форм для документов, оптимизированных для машинной обработки. Но процесс существенно усложняется для документов, изначально не предназначенных для машинного ввода, которые не содержат специальных реперных элементов. Дополнительные проблемы возникают, если документ имеет линию сгиба или корешок, который может неплотно прижиматься к стеклу сканера.

- Распознавание текста в полях ввода данных на документе. Может затрудняться наличием сложного цветного фона гербовой бумаги, контрастность которого порой сопоставима с контрастностью распознаваемого текста, а также пересечением текста с линиями разграфки, штрихами размашистой росписи или "наползанием" в поле ввода данных штампов или печатей, бликами от ламинирования.

- Логический контроль распознанных данных. Некоторые сведения в пакете часто дублируются - например, фамилия и имя в паспорте повторяются в водительском удостоверении или в анкете. Если архитектура системы дает возможность вести контроль данных на межстраничном уровне, то это позволяет более эффективно выявлять расхождения, повышать уровень достоверности при автоматическом вводе данных.

По мнению разработчиков Cognitive Technologies, появление технологии Scainfy именно сейчас определяется, с одной стороны, повышением спроса на подобные решения со стороны заказчиков, а с другой - развитием функций офисной техники и программных средств. Например, клиенты сегодня могут применять относительно недорогие цветные и быстрые сканеры. В свою очередь разработчики существенно повысили эффективность распознавания с помощью современных методов обработки изображений, например вейвлет-фильтрации, используемой для подавления периодических текстур, характерных для фона гербовой бумаги. Конечно, важно и то, что современные документы гораздо лучше адаптированы для машинной обработки (например, паспорт стал заполняться печатным образом).

На сегодняшний день технология Scanify встроена в продукт Cognitive Forms и уже использована в проектах по автоматизации регистрации авиапассажиров (распознается паспорт и авиабилет), по организации единых денежных выплат для автоматизации регистрации льготников (распознается паспорт, пенсионное страховое свидетельство), регистрации полисов автострахования, экспресс-кредитованию. Разработчики планируют выпустить набор фунций Scanify API, который позволит задействовать механизм Scanify в ПО третьих фирм.