Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

National Business Award наградила за поиск

Недавно в Москве состоялась церемония награждения престижной премии National Business Award, которая отмечает достижения …

Новое поколение IdM-систем полностью заменит привычные сегодня IdM?

IdM-системы давно стали привычным элементом корпоративной ИТ-инфраструктуры. Рынок развивается уже не первое десятилетие …

«ТОП-40 диджитал-экспертов»: время «гибридных» ИТ-директоров

Ежегодный рейтинг лидеров цифровой отрасли зафиксировал эволюцию ролей CIO и CTO в российских компаниях. Обнародован …

Трансформация ИТ-инфраструктуры в промышленном секторе: опыт Антона Пирогова

DevOps-инженер крупной компании радиоэлектроники рассказал о том, как превратить рутинную эксплуатацию системы …

Генеративный искусственный интеллект в мобильной разработке корпоративного уровня

По данным Gartner, в 2025 году около 60% крупных компаний тестировали генеративный искусственный интеллект …

Минимизация рисков мошенничества: от теории к практике

PC Week/RE №4 (610) 12 февраля — 18 февраля 2008

Наталия Катилова, Владислав Гужелев | 10.01.2008

Анализ выбросов при мониторинге транзакций по кредитным картам

Кластерный анализ позволяет объединить схожие записи в отдельные группы (кластеры)

Анализ ссылок позволяет выявлять группы записей, образующих циклы

Современный арсенал банковского аналитика основан на использовании инструментов предиктивного анализа (от английского слова prediction — прогноз, предсказание), принадлежащих к так называемым методам углубленного изучения данных (Data Мining). С их помощью можно построить модель, позволяющую спрогнозировать вероятность того, что та или иная операция окажется мошеннической. Традиционные методы выявления подозрительных операций остались далеко в прошлом: несмотря на их внешнюю надежность, работают они все же реактивно, т. е. по свершившемуся факту. Типичный пример тому -- наиболее часто используемый метод “красного флажка”, когда уже совершенная операция проверяется с помощью набора определенных правил (алгоритмов), и если обнаружено отклонение, флажок “срабатывает”. Но задача настоящего аналитика -- не только выявить мошеннические операции, но и предотвратить их, т. е. действовать проактивно. Именно этой теме и посвящена данная статья.

Методы Data Mining разительно отличаются от упомянутых выше традиционных подходов. Их аналитические средства выявляют подозрительные случаи на основе неких шаблонов, позволяющих сделать предположение о мошенничестве. На практике подобные сочетания данных принадлежат, как правило, к одному из следующих типов (см. также таблицу):

необычные значения, каким-либо образом отличающиеся от нормы;
подозрительная взаимозависимость между наблюдениями;
заметные изменения в поведении сторон, участвующих в операции.

Примеров необычных значений можно привести великое множество -- это может быть очень крупная сумма банковского перевода, чересчур высокая зарплата, указанная заемщиком, и т. д. А вот аномальные взаимосвязи (например, двадцатилетний покупатель приобрел новую модель Porsche или по одной и той же кредитной карте утром произведена оплата в Москве, днем — в Питере, а вечером — во Владивостоке) встречаются значительно реже.

Записи, содержащие необычные значения, проще всего выявлять путем анализа выбросов. Количественные статистические инструменты, такие как определение среднего значения или стандартного отклонения, представление данных в виде различных графиков и диаграмм (см. рис. 1), весьма эффективны для обнаружения необычных значений непрерывно изменяющихся переменных (суммы кредита, зарплаты и т. п.). Для категориальных переменных (пол, образование, должность, цвет машины и пр.) хорошим индикатором могут стать частотные характеристики совокупности записей.

На необычные корреляции могут указывать несколько вроде бы независимых записей, имеющих совпадающие значения некоторых переменных (например, одно и то же место жительства или номер телефона). С другой стороны, необычными иногда можно считать случаи, когда в записях фигурируют, например, компании с разными именами, но одинаковыми адресами или сделки с различными земельными участками, но одними и теми же покупателями-продавцами...

Первый тип взаимосвязей наиболее прост для выявления. Здесь требуется, разумеется, чтобы сходство анализируемых полей было действительно нетипичным и существенным. Такие распространенные атрибуты, как пол или национальность, в этом случае использовать не имеет смысла. Хорошим примером необычной взаимосвязи записей может служить ситуация, когда несколько компаний, вовлеченных в операции по переводу денежных средств, имеют разные названия, но один и тот же юридический адрес. В подобном случае логично заподозрить “отмывание” денег.

Учитывая, что число операций может быть весьма велико и что описываются они сотнями переменных, упомянутые необычные сочетания вполне могут остаться незамеченными, если не проводить специального анализа. В принципе можно попытаться обнаружить их, определив частоту появления значений отдельных переменных. На практике, однако, осуществить это довольно трудно, поскольку объем данных очень велик, а переменные (например, номер банковского счета, адрес и т. д.) могут принимать множество значений Инструментальные средства оценки частоты появления значений для множества переменных и их сочетаний являются обязательным элементом решений Data Mining. Заметим, что присутствие необычных взаимосвязей между записями не обязательно указывает на мошенничество, но служит сигналом к тому, чтобы провести дальнейшее расследование.

Другой подход состоит в обнаружении так называемых “почти дублирующихся записей”, т. е. таких, переменные в которых — при незначительных различиях — в основном содержат идентичную информацию. В этом случае эффективен кластерный анализ, когда схожие записи формируют отдельный кластер (группу). Остается лишь более пристально исследовать каждый отдельно взятый кластер на наличие в нем подозрительно схожих элементов (см. рис. 2).

Использование кластерного анализа, тем не менее, не ограничивается только лишь внимательным изучением найденных групп. Известна схема мошенничества, когда в процессе опроса злоумышленник определенным образом “копирует” ответы из анкет, ранее признанных банком хорошими, путем внесения в них небольших изменений. Как правило, алгоритм принятия решений настроен на некий образ заемщика, клиента или партнера (в зависимости от области бизнеса банка), и если отклонения от этого образа незначительны, у злоумышленника появляется шанс ввести кредитную организацию в заблуждение.

Приведем в качестве примера потребительское кредитование. Если мошенник знает, какие заявки на получение займа одобряются чаще всего, он может скопировать одну из них, лишь немного изменив данные. Опознать подобную заявку нам и поможет кластерный анализ. Мы увидим кластер, состоящий из двух очень близких записей — “истинной” и “скопированной”. Если мы успешно распознаем “скопированную” анкету и мошенник будет обнаружен, то такая анкета в дальнейшем может служить нам “шаблоном” для выявления других мошенников. Каждая последующая заявка, похожая на этот шаблон, объявляется подозрительной и подлежит более детальной проверке.

Иногда оказываются действенными и более простые методы с механизмами, схожими с кластерным анализом. Обратимся снова к потребительскому кредитованию. Как известно, при оформлении договоров клиент должен предоставить о себе персональную информацию: паспортные данные, ФИО, дату рождения и т. д

Но достаточно при заполнении кредитной заявки, как бы случайно ошибившись, внести в нее вместо информации о Сенине Иване Ивановиче (дата рождения 12.05.1973, номер паспорта 4605877345) данные на Семина Ивана Ивановича (дата рождения 13.05.1973, номер паспорта 4605887345, и известный банку злостный неплательщик Сенин превратится в добропорядочного гражданина Семина, а кредитное учреждение получит новые проблемы...

С другой стороны, оператор мог просто допустить опечатку при вводе данных. Выявление подобных огрехов посредством рутинной дополнительной проверки привело бы к резкому увеличению трудозатрат. Где же здесь найти золотую середину?

Решением будет создание функции, помогающей обнаруживать подобных клиентов, или, говоря математическим языком, метрики в клиентском пространстве. Паре клиентов функция ставит в соответствие число, которое определяет, насколько эти клиенты отличаются друг от друга. Высокие значения говорят о том, что данные сильно разнятся, низкие — что клиенты “похожи”. Имея такую функцию, обнаружить факт мошенничества становится простым делом. Например, маленькие значения функции свидетельствуют об опечатках, т. е. такие записи нужно проверить и уточнить. А очень большие — о том, что люди действительно разные. Потенциальные мошенники обосновались где-то посередине.

Стоит отметить, что создание и настройка подобной функции — сложный процесс, индивидуальный для каждого банка.

Более сложен для анализа случай, когда связь между записями проявляется в цепочке записей промежуточных. Выявление такого набора требует отслеживания цепочки от первого звена до последнего, и если на определенном промежутке времени эти звенья (первое и последнее) совпадут, мы говорим о цикличности операций. Существуют алгоритмы, выявляющие цикличность, и один из них известен как анализ ссылок (см. рис. 3).

Подобный метод с успехом был применен одним из банков для выявления мошеннических операций с недвижимостью, заключавшихся в перепродаже отдельными гражданами домов по цепочке с целью неадекватного завышения их стоимости. В результате недвижимость оставалась у ее первоначального хозяина, который получал возможность брать у банка более крупные займы под залог. В анализируемых записях присутствовали поля “Продавец” и “Покупатель”, а целью исследования стал поиск групп записей, образующих замкнутый цикл, когда поле “Продавец” в первой записи группы совпадает с полем “Покупатель” в последней. Задача решалась с помощью продукта SAS Enterprise Miner.

Нередко одни аналитические методы применяются для обнаружения новых случаев мошенничества, а другие -- для построения на их основе прогностических моделей. Конечной целью является выработка набора индикаторов (Alert System), которые не только указывают на факт мошенничества, но и предупреждают о потенциальном преступлении до его совершения.

Идентифицировав конкретные однотипные случаи уже совершенного мошенничества, для заблаговременного выявления и предотвращения злонамеренных операций можно использовать характеристики, свойственные целому их ряду. Функция прогноза в состоянии обнаружить в режиме реального времени мошенническую операцию в момент ее проведения. Очень часто это помогает предугадать преступные намерения и предпринять необходимые меры для их пресечения. Достоинство такого подхода состоит в том, что его надежность можно оценить статистическими методами. При высокой надежности анализ будет, как правило, указывать на действительные случаи мошенничества, а не просто представлять набор подозрительных операций.

В таблице мы попытались классифицировать характеристики данных, используемые для выявления мошенничества, а также применяемые методы анализа.

С авторами — директором международной консалтинговой группы Business & Decision по маркетингу в России и странах СНГ Наталией Катиловой и руководителем Управления по борьбе с мошенничеством банка Home Credit & Finance Владиславом Гужелевым -- можно связаться по адресу: natalia.katilova@businessdecision.com.

Методы исследования данных, применяемые для выявления определенных типов мошенничества

Искомая характеристика набора данных Цель исследования Примерный сценарий мошеннической операции Метод исследования данных

Необычные данные Выявить отдельные необычные, но в целом приемлемые значения
Выявить необычные сочетания значений, каждое из которых по отдельности не выходит за рамки нормы
Цена приобретаемой недвижимости слишком высока по сравнению с ценами на аналогичные квартиры в данном районе города
Некое лицо подает необычно большое число требований на возмещение ущерба в случае ДТП
Анализ выбросов
Частотный анализ

Кластерный анализ

Различные алгоритмы

Необычные взаимоотношения Выявить связи между независимыми записями
Выявить практически идентичные записи

Выявить прямые связи между записями

Выявить связи между записями, проявляющиеся через цепочки промежуточных записей
Операции, в которых участвуют многочисленные компании, с переводом средств через различные банки
В нескольких сделках с объектом недвижимости участвуют одни и те же лица в качестве продавцов и покупателей
Частотный анализ
Кластерный анализ

Анализ ссылок

Анализ выбросов

Изменения поведенческих характеристик Выявить единичный случай необычного поведения
Выявить многочисленные случаи необычного поведения
С кредитной карты частного лица снимаются крупные суммы за оплату покупок Анализ выбросов
Частотный анализ

Печать Печать без изображений

Ссылка на статью: [URL=http://www.pcweek.ru/themes/detail.php?ID=105652]Минимизация рисков мошенничества: от теории к практике[/URL]

ОТКРЫТОЕ ПИСЬМО АВТОРАМ
-----------------------
Добрый день!

Меня очень заинтересовала Ваша статья «Минимизация рисков мошенничества: от теории к практике», опубликованная в 4-м номере PCWeek. В связи с этим хотел бы сделать несколько дополнений и комментариев к ней.

Я некоторое время занимаюсь проблемами информационной безопасности, в частности в области обнаружения аномальной активности в реляционных базах данных, таким образом, предлагаемые Вами подходы к обнаружению случаев мошенничества в банковских системах в некотором роде коррелируют с моими научными изысканиями.
По моему мнению, Вы совершенно правильно акцентируете внимание на методиках Data Mining и кластерном анализе, как на наиболее совершенном в настоящее время способе обнаружения попыток мошенничества, используемом в коммерческих системах. Кроме того, Вы очень хорошо раскрыли суть статистической обработки информации, которая достаточно широко применяется во многих системах. Понравилась и предлагаемая методика анализа графов взаимосвязей (по Вашей терминологии – анализ ссылок), достаточно мало освещенная в русскоязычных источниках. Однако я хотел бы уточнить некоторые моменты.

В статье Вы совершенно определенно выделили объекты, которые являются значимыми при обнаружении аномалий (если позволите, я буду оперировать привычными и устоявшимися терминами). Такими объектами являются: необычные данные, необычные взаимоотношения и изменения поведенческих характеристик. Для меня не совсем понятно отличие второй группы от третьей и, соответственно, приведенные в таблице примеры. Разве необычные отношения не являются подмножеством поведенческих характеристик, в которых в первую очередь рассматриваются взаимосвязи объектов, последовательность обращения к ним и некоторые другие метрики? Приводимый пример для поведенческих характеристик также вызвал недоумение: при снятии с кредитной карты частного лица мы, вероятно, будем иметь дело с превышением среднестатистического значения снимаемых сумм, что относится к характеристике данных, а не поведения.

Кроме того, очень интересно было бы узнать про методики составления функции над метриками, используемой для статистической (как я понял) обработки данных с целью выявления умышленных искажений информации (пример с Сениным Иваном Ивановичем). Вы пишете, что методики индивидуальны для каждого банка и весьма сложны, но, если можно, раскройте общие принципы, методы, подходы, которые используются для достижения данной цели.
Также, я предложил бы выделить некоторые другие подходы, не освещенные в Вашей статье, но кажущиеся мне весьма перспективными. Одним из таких подходов является использование методик искусственного интеллекта, в частности, нейронные сети. Доводом в правомерности и эффективности данной группы методов может служить статья Ричарда Липпманна и Роберта Куннингема "Использование выборки ключевых строк и нейронных сетей для уменьшения (числа) ложных срабатываний и обнаружения новых атак для сниффер-ориентированных систем обнаружения вторжений", 1999. Предложенный авторами подход основан на обнаружении в терминальных сессия ключевых слов, характеризующих атаки (например, access denied, passwd, warez etc) и нормальное поведение системы с последующей подачей числа встречаемых слов на входы нейронной сети. Эффективность подобной системы по оценкам авторов весьма высока и может достигать (для обученной сети) 80% с одним ложным срабатыванием за день. Кроме того, система обеспечивает возможность обнаружения новых видов атак. Эту же версию подтверждает более поздняя публикация Жана-Филиппа Планкарта "Применение нейронных сетей для обнаружения вторжений", 2003.
Кстати, в указанной статье приведено следующее разграничение систем обнаружения аномалий по используемым ими методам:
• Пороговые (граничные) методы: обнаруживают аномальную активность на сервере или в сети, например аномальное использование процессора на сервере или аномальную нагрузку на сеть.
• Статистические метрики: обучение с использованием ведения истории
• Метрики, основанные на правилах: экспертные системы
• Нелинейные алгоритмы: нейронные сети, генетические алгоритмы

В качестве еще одного подхода, разработка и применение которого кажется мне весьма эффективным, я бы предложил анализ взаимодействия сущностей системы, т.е. их поведенческих характеристик. Очевидно, что банковские информационные системы используют некоторые хранилища информации, вероятнее всего реляционные. Отсюда следует, что для выборки информации из хранилища должны использоваться запросы в том или ином виде. Для определенности, остановимся на достаточно часто встречаемом решении – SQL Server, в качестве языка запросов будем рассматривать SQL. Таким образом, анализ поступающих запросов может удовлетворить необходимость превентивной защиты, о которой Вы упоминаете в начале статьи («задача настоящего аналитика … действовать проактивно»). Кроме того, данный метод позволяет уменьшить число ложных срабатываний системы (данная задача представляется мне наиболее важной в системах обнаружения аномалий). Косвенным подтверждением преимуществ данного подхода может служить статья Kenneth L. Ingham, Anil Somayaji "Leading DFA representations of HTTP for protecting web applications". Анализ структуры SQL-запроса может сформировать взаимосвязи между сущностями в системе, помеченные, например, частотой их активизации (инкремент при каждом использовании связи). Очевидно, что такая система будет требовать первоначальной подстройки весов переходов – т.е. стадии обучения. Однако, в отличие от кластеризации, которая относится к классу задач обучения без учителя, данный вид обучения системы потребует минимальных временных затрат.

Благодарю за интересную публикацию и надеюсь на конструктивный диалог. Хотелось бы услышать ответы на поставленные вопросы, а также Ваше мнение о предложенных подходах.

--
Best regards, Alexander V. Pavlov
1st year PhD Student
Cherepovets State University

Александр Павлов
21.02.2008 13:38:55

Связаться со мной можно по адресу: avp<dot>san<at>gmail.com

Александр Павлов
21.02.2008 13:40:17

Только зарегистрированные пользователи могут оставлять комментарий.

Регистрация
Авторизация

	Интересно

События

В Москве состоится ежегодная бизнес-регата IT SAILING DAY 2026

13 августа 2026 г. (четверг), 10:00 — 20:00, Москва

В Москве состоится ProcessTech — крупнейший Форум по процессной аналитике и искусственному интеллекту

18 — 19 сентября 2026 г. (пятница — суббота), Москва

Статьи по теме

Автоматизация подбора персонала в крупных компаниях: что нужно знать ИТ-директору до старта проекта

Когда HR приходит к ИТ-директору с запросом на автоматизацию найма, за этим, как правило, стоит …

Интеграция с МИС: как сделать сервис эффективным и удобным для людей

В современном мире многие чат-боты или голосовые помощники могут не только проконсультировать по какому-то …

Сначала процесс, потом ИИ: как получить эффект от автоматизации

Сейчас автоматизация процессов — это базовая задача для бизнеса, способ повысить конкурентоспособность и закрыть боли …

Управление качеством на производстве: как выбрать стратегию автоматизации и не ошибиться

Управление качеством — один из самых болезненных процессов на любом производственном предприятии. Его …

Сначала логика процесса, потом автоматизация. Почему большинство компаний делают наоборот

Представьте: клиент оставил заявку. Она пришла на почту менеджеру, тот переслал её в чат, коллега из другого …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Минимизация рисков мошенничества: от теории к практике

Анализ выбросов при мониторинге транзакций по кредитным картам

Кластерный анализ позволяет объединить схожие записи в отдельные группы (кластеры)

Анализ ссылок позволяет выявлять группы записей, образующих циклы

Комментарии