Современный арсенал банковского аналитика основан на использовании инструментов предиктивного анализа (от английского слова prediction — прогноз, предсказание), принадлежащих к так называемым методам углубленного изучения данных (Data Мining). С их помощью можно построить модель, позволяющую спрогнозировать вероятность того, что та или иная операция окажется мошеннической. Традиционные методы выявления подозрительных операций остались далеко в прошлом: несмотря на их внешнюю надежность, работают они все же реактивно, т. е. по свершившемуся факту. Типичный пример тому -- наиболее часто используемый метод “красного флажка”, когда уже совершенная операция проверяется с помощью набора определенных правил (алгоритмов), и если обнаружено отклонение, флажок “срабатывает”. Но задача настоящего аналитика -- не только выявить мошеннические операции, но и предотвратить их, т. е. действовать проактивно. Именно этой теме и посвящена данная статья.

Методы Data Mining разительно отличаются от упомянутых выше традиционных подходов. Их аналитические средства выявляют подозрительные случаи на основе неких шаблонов, позволяющих сделать предположение о мошенничестве. На практике подобные сочетания данных принадлежат, как правило, к одному из следующих типов (см. также таблицу):

  • необычные значения, каким-либо образом отличающиеся от нормы;
  • подозрительная взаимозависимость между наблюдениями;
  • заметные изменения в поведении сторон, участвующих в операции.

Примеров необычных значений можно привести великое множество -- это может быть очень крупная сумма банковского перевода, чересчур высокая зарплата, указанная заемщиком, и т. д. А вот аномальные взаимосвязи (например, двадцатилетний покупатель приобрел новую модель Porsche или по одной и той же кредитной карте утром произведена оплата в Москве, днем — в Питере, а вечером — во Владивостоке) встречаются значительно реже.

Записи, содержащие необычные значения, проще всего выявлять путем анализа выбросов. Количественные статистические инструменты, такие как определение среднего значения или стандартного отклонения, представление данных в виде различных графиков и диаграмм (см. рис. 1), весьма эффективны для обнаружения необычных значений непрерывно изменяющихся переменных (суммы кредита, зарплаты и т. п.). Для категориальных переменных (пол, образование, должность, цвет машины и пр.) хорошим индикатором могут стать частотные характеристики совокупности записей.

На необычные корреляции могут указывать несколько вроде бы независимых записей, имеющих совпадающие значения некоторых переменных (например, одно и то же место жительства или номер телефона). С другой стороны, необычными иногда можно считать случаи, когда в записях фигурируют, например, компании с разными именами, но одинаковыми адресами или сделки с различными земельными участками, но одними и теми же покупателями-продавцами...

Первый тип взаимосвязей наиболее прост для выявления. Здесь требуется, разумеется, чтобы сходство анализируемых полей было действительно нетипичным и существенным. Такие распространенные атрибуты, как пол или национальность, в этом случае использовать не имеет смысла. Хорошим примером необычной взаимосвязи записей может служить ситуация, когда несколько компаний, вовлеченных в операции по переводу денежных средств, имеют разные названия, но один и тот же юридический адрес. В подобном случае логично заподозрить “отмывание” денег.

Учитывая, что число операций может быть весьма велико и что описываются они сотнями переменных, упомянутые необычные сочетания вполне могут остаться незамеченными, если не проводить специального анализа. В принципе можно попытаться обнаружить их, определив частоту появления значений отдельных переменных. На практике, однако, осуществить это довольно трудно, поскольку объем данных очень велик, а переменные (например, номер банковского счета, адрес и т. д.) могут принимать множество значений Инструментальные средства оценки частоты появления значений для множества переменных и их сочетаний являются обязательным элементом решений Data Mining. Заметим, что присутствие необычных взаимосвязей между записями не обязательно указывает на мошенничество, но служит сигналом к тому, чтобы провести дальнейшее расследование.

Другой подход состоит в обнаружении так называемых “почти дублирующихся записей”, т. е. таких, переменные в которых — при незначительных различиях — в основном содержат идентичную информацию. В этом случае эффективен кластерный анализ, когда схожие записи формируют отдельный кластер (группу). Остается лишь более пристально исследовать каждый отдельно взятый кластер на наличие в нем подозрительно схожих элементов (см. рис. 2).

Использование кластерного анализа, тем не менее, не ограничивается только лишь внимательным изучением найденных групп. Известна схема мошенничества, когда в процессе опроса злоумышленник определенным образом “копирует” ответы из анкет, ранее признанных банком хорошими, путем внесения в них небольших изменений. Как правило, алгоритм принятия решений настроен на некий образ заемщика, клиента или партнера (в зависимости от области бизнеса банка), и если отклонения от этого образа незначительны, у злоумышленника появляется шанс ввести кредитную организацию в заблуждение.

Приведем в качестве примера потребительское кредитование. Если мошенник знает, какие заявки на получение займа одобряются чаще всего, он может скопировать одну из них, лишь немного изменив данные. Опознать подобную заявку нам и поможет кластерный анализ. Мы увидим кластер, состоящий из двух очень близких записей — “истинной” и “скопированной”. Если мы успешно распознаем “скопированную” анкету и мошенник будет обнаружен, то такая анкета в дальнейшем может служить нам “шаблоном” для выявления других мошенников. Каждая последующая заявка, похожая на этот шаблон, объявляется подозрительной и подлежит более детальной проверке.

Иногда оказываются действенными и более простые методы с механизмами, схожими с кластерным анализом. Обратимся снова к потребительскому кредитованию. Как известно, при оформлении договоров клиент должен предоставить о себе персональную информацию: паспортные данные, ФИО, дату рождения и т. д

Но достаточно при заполнении кредитной заявки, как бы случайно ошибившись, внести в нее вместо информации о Сенине Иване Ивановиче (дата рождения 12.05.1973, номер паспорта 4605877345) данные на Семина Ивана Ивановича (дата рождения 13.05.1973, номер паспорта 4605887345, и известный банку злостный неплательщик Сенин превратится в добропорядочного гражданина Семина, а кредитное учреждение получит новые проблемы...

С другой стороны, оператор мог просто допустить опечатку при вводе данных. Выявление подобных огрехов посредством рутинной дополнительной проверки привело бы к резкому увеличению трудозатрат. Где же здесь найти золотую середину?

Решением будет создание функции, помогающей обнаруживать подобных клиентов, или, говоря математическим языком, метрики в клиентском пространстве. Паре клиентов функция ставит в соответствие число, которое определяет, насколько эти клиенты отличаются друг от друга. Высокие значения говорят о том, что данные сильно разнятся, низкие — что клиенты “похожи”. Имея такую функцию, обнаружить факт мошенничества становится простым делом. Например, маленькие значения функции свидетельствуют об опечатках, т. е. такие записи нужно проверить и уточнить. А очень большие — о том, что люди действительно разные. Потенциальные мошенники обосновались где-то посередине.

Стоит отметить, что создание и настройка подобной функции — сложный процесс, индивидуальный для каждого банка.

Более сложен для анализа случай, когда связь между записями проявляется в цепочке записей промежуточных. Выявление такого набора требует отслеживания цепочки от первого звена до последнего, и если на определенном промежутке времени эти звенья (первое и последнее) совпадут, мы говорим о цикличности операций. Существуют алгоритмы, выявляющие цикличность, и один из них известен как анализ ссылок (см. рис. 3).

Подобный метод с успехом был применен одним из банков для выявления мошеннических операций с недвижимостью, заключавшихся в перепродаже отдельными гражданами домов по цепочке с целью неадекватного завышения их стоимости. В результате недвижимость оставалась у ее первоначального хозяина, который получал возможность брать у банка более крупные займы под залог. В анализируемых записях присутствовали поля “Продавец” и “Покупатель”, а целью исследования стал поиск групп записей, образующих замкнутый цикл, когда поле “Продавец” в первой записи группы совпадает с полем “Покупатель” в последней. Задача решалась с помощью продукта SAS Enterprise Miner.

Нередко одни аналитические методы применяются для обнаружения новых случаев мошенничества, а другие -- для построения на их основе прогностических моделей. Конечной целью является выработка набора индикаторов (Alert System), которые не только указывают на факт мошенничества, но и предупреждают о потенциальном преступлении до его совершения.

Идентифицировав конкретные однотипные случаи уже совершенного мошенничества, для заблаговременного выявления и предотвращения злонамеренных операций можно использовать характеристики, свойственные целому их ряду. Функция прогноза в состоянии обнаружить в режиме реального времени мошенническую операцию в момент ее проведения. Очень часто это помогает предугадать преступные намерения и предпринять необходимые меры для их пресечения. Достоинство такого подхода состоит в том, что его надежность можно оценить статистическими методами. При высокой надежности анализ будет, как правило, указывать на действительные случаи мошенничества, а не просто представлять набор подозрительных операций.

В таблице мы попытались классифицировать характеристики данных, используемые для выявления мошенничества, а также применяемые методы анализа.

С авторами — директором международной консалтинговой группы Business & Decision по маркетингу в России и странах СНГ Наталией Катиловой и руководителем Управления по борьбе с мошенничеством банка Home Credit & Finance Владиславом Гужелевым -- можно связаться по адресу: natalia.katilova@businessdecision.com.

Методы исследования данных, применяемые для выявления определенных типов мошенничества
Искомая характеристика набора данныхЦель исследованияПримерный сценарий мошеннической операцииМетод исследования данных
Необычные данныеВыявить отдельные необычные, но в целом приемлемые значения

Выявить необычные сочетания значений, каждое из которых по отдельности не выходит за рамки нормы

Цена приобретаемой недвижимости слишком высока по сравнению с ценами на аналогичные квартиры в данном районе города

Некое лицо подает необычно большое число требований на возмещение ущерба в случае ДТП

Анализ выбросов

Частотный анализ

Кластерный анализ

Различные алгоритмы

Необычные взаимоотношенияВыявить связи между независимыми записями

Выявить практически идентичные записи

Выявить прямые связи между записями

Выявить связи между записями, проявляющиеся через цепочки промежуточных записей

Операции, в которых участвуют многочисленные компании, с переводом средств через различные банки

В нескольких сделках с объектом недвижимости участвуют одни и те же лица в качестве продавцов и покупателей

Частотный анализ

Кластерный анализ

Анализ ссылок

Анализ выбросов

Изменения поведенческих характеристик Выявить единичный случай необычного поведения

Выявить многочисленные случаи необычного поведения

С кредитной карты частного лица снимаются крупные суммы за оплату покупок Анализ выбросов

Частотный анализ