Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Нормализация данных для выполнения аналитических задач

PC Week/RE (530) 20`2006

Андрей Колесов | 06.06.2006

ПРОЕКТЫ

Решение современных аналитических задач все чаще связано с обработкой огромных объемов информации, извлекаемой из различных источников данных. И проблема заключается не только в обеспечении физического доступа к разным каналам получения информации или формирования единого хранилища, гораздо сложнее решить задачи нормализации содержимого баз данных и привести его к некоторому единому каноническому виду, без чего существенно затруднен анализ этих данных.

Суть вопроса можно проиллюстрировать на примере работы Федеральной службы по финансовому мониторингу (Росфинмониторинг), на которую возложена реализация положений российского законодательства о противодействии легализации доходов, полученных преступным путем, и финансированию терроризма. Для этой цели Росфинмониторинг постоянно ведет анализ информации о финансовых операциях юридических и физических лиц. Эти сведения поступают от подотчетных организаций (в частности, от банков) в электронном виде, причем, несмотря на использование унифицированных форм отчетности, нередко получаемая информация оказывается неполной и недостаточно структурированной. Понятно, что все это усложняет анализ, который должны выполнять специалисты Федеральной службы.

Процесс нормализации адреса (справа - процент достоверности выполняемых преобразований)

В качестве самой простой иллюстрации можно привести пример заполнения поля адреса физического или юридического лица, который может выглядеть так:

М.О. Долгопрудный ул Первомайская 5 11

Или так:

г. Долгопрудный Мытищинского района Московской области Первомайская 5 11

Возможны и другие варианты.

Актуальность проблемы легко понять, если учесть, что это относится к десяткам полей в получаемых документах (названия организаций, описание операций, имена людей, дата их рождения и т. д.), а объем ежедневно поступающих в базу данных исчисляется миллионами полей. Очевидно, что решение подобных задач возможно только с помощью технологий автоматической нормализации и идентификации данных. Реализация проекта по подготовке и верификации данных для Росфинмониторинга была выполнена специалистами компании ABBYY, которая давно известна своими разработками в области интеллектуальной аналитики. И тем не менее для достижения поставленных целей разработчикам ABBYY пришлось решить целый ряд сложных исследовательских задач.

В результате были созданы три набора API-интерфейсов, обеспечивающие нормализацию исходных данных, идентификацию их с уже имеющимися в БД записями, а также поиск по базе данных. Кроме того, был создан "Автономный инструмент аналитика" (АИА), предназначенный для иллюстрации функций разработанных модулей. Для повышения качества нормализации данных задействовано более 60 словарей и справочников.

Каждый набор API представляет собой гибкий инструментарий с различными возможностями настройки, что достигается благодаря применению двухкомпонентной структуры: программный модуль состоит из технологического ядра ("движка") и блока структурных описаний в формате XML. Соответствующим образом изменяя структурные описания, можно детально настроить библиотеки на сколь угодно сложную процедуру обработки данных.

Применение этих средств позволяет автоматизировать процесс нормализации, состоящий из следующих взаимосвязанных этапов (см. рисунок):

- структуризация данных: разбиение входных данных на независимые составляющие путем выявления сокращений, вводных слов, разделителей и пр., а также посредством проверки слов исходной строки по справочникам;

- приведение всех составляющих входной структурированной строки к нормальному виду, заданному в справочниках;

- проверка полученного нормализованного значения на существование по заданному справочнику;

- проведение вероятностной оценки качества выполненной нормализации при осуществлении всех этапов данной процедуры.

По словам Юрия Гребенщикова, начальника информационно-технологического управления Росфинмониторинга, внедрение созданных ABBYY инструментов обработки данных позволит добиться серьезной экономии времени и ресурсов и значительно снизить трудозатраты. Согласно результатам полномасштабного тестирования, проведенного на финальной стадии проекта, время обработки массива данных объемом свыше 1 млн. информационных полей не превышает 6 ч.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Нормализация данных для выполнения аналитических задач

Комментарии