Общепринято, что Big Data — один из основных современных трендов развития ИТ. Число этих основных трендов варьируется в зависимости от экспертов. IBM говорит о четырех, добавляя облачные вычисления, мобильность и социальные сети. HP в своей концепции «Новый стиль ИТ» говорит о семи, добавляя еще Интернет вещей, «умные» программируемые ЦОДы и информационную безопасность. Но то что Big Data входит в основной список любого эксперта — сомнений не вызывает.

Действительно, объемы информации растут по экспоненциальному закону. Основная доля информации относится к неструктурированным данным. Вопросы корректной интерпретации информационных потоков становятся все более актуальными и одновременно сложными. С этим надо что-то делать, и ответом на эти новые вызовы являются технологии Big Data.

Согласно исследованию Accenture (осень 2014 г.), компании оптимистично оценивают будущее технологий Big Data. 89% считают, что они изменят бизнес столь же сильно, как и Интернет.

При этом эксперты в качестве основных пользователей Big Data часто называют банки. Почему — не очень понятно. Скорее эти технологии должны больше интересовать военных и спецслужбы. Хорошая возможность для Большого Брата лучше узнать, чем дышат граждане, причем не только своей страны. Да и ценность для разведки и контрразведки очевидна. Но об этом на конференциях по Big Data говорить не принято. Больше упирают на коммерческий сектор. Так что и мы ограничимся банковской сферой.

Что такое Big Data?

Для начала определимся с определениями, тем более что терминология Big Data, как это часто бывает в новых направлениях, до конца еще не устоялась. Сам термин относится к числу немногих, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 г., когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?».

Впрочем, многие и сейчас считают, что Big Data не новое направление, а не более чем удачное изобретение маркетологов. Ведь анализ больших данных в науке используется уже давно. Сам занимался этими вопросами в аспирантуре МИФИ еще в конце 1980-х. Конечно, тогда вычислительные мощности по современным меркам были просто смешными. И чтобы рассчитать нужные параметры всего ядерного реактора по моей программе, понадобился бы месяц непрерывной работы ЭВМ. Но сам математический аппарат изменился несильно. Просто если раньше, чтобы построить объект и сделать прогноз, приходилось использовать ограниченные выборки, то теперь можно использовать весь объем данных, что, конечно, повышает точность построенных моделей. А машинное обучение и data mining — это просто современные методы решения задач.

Тем не менее отличия есть. Если вы можете уместить свои данные в обычной таблице с измеряемым числом строк и создавать к ней агрегированные запросы — это классическая аналитика. Но если вы берете разнородные источники информации и исследуете их по разным параметрам и в реальном времени — это и есть Big Data.

Основные задачи. Вопросы скоринга

Основные задачи, для которых банки используют технологии анализа больших данных, ‒ это скоринг, оперативное получение отчетности, безопасность (недопущение проведения сомнительных операций и мошенничества), работа с персоналом, а также маркетинг — персонализация предлагаемых клиентам банковских продуктов. Рассмотрим эти задачи подробней.

Скоринг — оценка кредитных рисков физического или юридического лица, основанная на статистических методах, ‒ одна из важнейших банковских систем. Кому можно дать кредит, а кому нельзя? Как оценить риски и какой заложить процент? Эти вопросы всегда интересовали банкиров. Вспоминаю начало 1990-х. К нам в банк с просьбой о кредите обратилась малое предприятие «Русь».

‒ Не давать! — категорично заявил многоопытный председатель правления банка.

‒ Почему?

‒ Все бумаги, все балансы, все отчеты в полном порядке. Это уже подозрительно. А после того, как они согласились, не торгуясь, на нашу явно завышенную процентную ставку, — стало до конца все ясно. Кредит возвращать они и не собираются.

Сейчас, конечно, не лихие 1990-е, когда невозврат кредита считался нормой. Но проблема оценки заемщика осталась. И здесь Big Data действительно могут быть полезны. Используемые в банках программы анализа финансового состояния клиента базируются на ежемесячной отчетности организации и данных самого банка о его кредитной истории и проводимых клиентом платежах. А вот технологии Big Data позволяют подключить к анализу еще и огромный объем внешней информации. Что пишут об организации СМИ, что говорят телепередачи, кадровые перестановки, прогнозы.

Полезным для банка будет и анализ соцсетей. Например, прототип решения по взаимодействию с социальными сетями был запущен в Альфа-банке еще в 2013 г. Причем соцсети могут быть не только источником данных для анализа отзывов о компании. В них можно выявить, например, начало массовых сокращений в компании-заемщике, что явно говорит об ее ухудшившихся делах. И сделать соответствующие выводы — поднять процентную ставку по кредиту или вообще отказать в займе. И наоборот, в случае положительной динамики рассмотреть возможность выдачи кредита, не обеспеченного залогом.

Банки и маркетинг

Big Data — уже вовсю используются в маркетинге. И это неудивительно. Считается, что Google может с 80% вероятностью предсказать, куда вы пойдете и с кем встретитесь. Иногда — до того, как вы сами приняли решение.

Банкам это тоже интересно. Кому и какой кредит предложить? Может этому клиенту пора сменить машину и ему стоит предложить автокредит? Сразу сделав точное рекламное предложение, поняв, какая именно ему машина нужна и какого цвета. Или сделать адресное предложение по ипотеке, узнав о рождении нового ребенка?

Особенно активен в этой области Сбербанк. Вполне объяснимо — это наш крупнейший банк, имеющий огромное количество данных о клиентах и их транзакциях. У него есть все возможности для бизнес-аналитики и использования технологий больших данных. Для их реализации Сбербанк приобрел контрольный пакет в RuTarget, разработавшей рекламную платформу Segmento. То есть банк вышел на новый рынок — рынок умной рекламы.

Эффективная банерная реклама нового поколения, предлагаемая рекламодателям Segmento, основана на разработанной RuTarget платформе, включающей системы больших данных и искусственного интеллекта. Технология Segmento обрабатывает огромный объем данных о поведении людей в сети. Какие страницы посещал пользователь, чем интересовался в соцсетях. На основе этих данных платформа позволяет предсказывать действия целевых пользователей и точно таргетировать рекламу во всех онлайн-каналах. Обработка информации, содержащейся в клиентских базах Сбербанка, может сделать такое таргетирование сверхточным.

Удобство для клиента

Поняв своего клиента, банк может не только сделать ему точное рекламное предложение, но и подстроить под него интерфейс своих автоматизированных систем. Так, используя технологии Big Data, испанский банк CaixaBank делает настраивающееся под клиента меню банкомата. Появляется возможность взаимодействия с банкоматом голосом для слепых. Для людей с проблемами со зрением экран может перейти в режим высокой контрастности, для клиентов, не владеющих компьютерными технологиями, — предоставить максимально упрощенное меню, для неидентифицированных пользователей — стандартное.

Подстраивается под конкретных людей и интерфейс вывода информации банка на планшет клиента или его смартфон.

Значительно ускоряется процесс выдачи клиенту кредитной карты. Если раньше проверка занимала несколько дней, то с использованием Big Data она проходит практически мгновенно. Конечно, все это сказывается на привлечении в банк клиентов и уменьшении их оттока.

Анализируя социальные сети, банки могут оперативно оценить настроения клиентов, понять их отношение к новым продуктам и сервисам, улучшить качество предоставляемых услуг, учитывая мнения потребителей. Также много полезного можно получить, изучая поведение пользователей банковского сайта.

Интересны проекты по анализу действий клиентов в мобильных банковских приложениях. Они могут выявить сложные для понимания клиента моменты во взаимодействии с банковской системой и заменить долгие и дорогие опросы, направленные на повышение качества обслуживания.

Банки и безопасность

Случай из моей практики. На одном этаже с офисом нашего банка находился офис страховой компании. Как-то раз, после праздников, его сотрудники пришли на работу и выяснили, что кто-то утащил из офиса сейф с деньгами. На лестничной клетке стояла камера наблюдения банка, и они попросили записи у нас.

Удалось выяснить, что два злоумышленника в масках проникли в помещение и вытащили сейф. Потом стали просматривать всех посетителей офиса и по походке определили, что этими злоумышленниками были недавно уволенные охранники.

Процесс просмотра записей занял несколько дней. Насколько быстрее все это можно было бы сделать, если бы были автоматизированные системы распознавания образов. Естественно, об этом думают банки. И внедряют системы безопасности, основанные на анализе Big Data, которые выявляют аномальное поведение клиентов и предупреждают службы безопасности банка. Причем аномальное поведение как в реальном, так и в информационном пространстве.

С информационным пространством немного проще. Во всяком случае, различные антифрод-системы, выявляющие аномальное поведение клиента, наши банки используют уже несколько лет. Например, когда я решил оплатить карточкой прокатную машину в Камеруне, антифрод-система процессинга заподозрила неладное, выдала сигнал в службу безопасности, и мне сразу позвонила девушка, попросив подтвердить такую нетипичную для меня операцию.

За рубежом об этом тоже думают и продвинулись дальше. Так, используемая в CaixaBank интеллектуальная система безопасности CASIOPEA 3.0 на базе существующих у нее прогнозных и поведенческих моделей выявляет аномальные ситуации не только в системах интернет-банкинга, но и в поведении клиентов, ситуациях с банкоматами и POS-терминалами.

Источниками данных являются данные о SLA, транзакциях, информация с серверов, от продавцов, от службы техподдержки, информация о технических операциях с банкоматами и POS-терминалами (например, сведения об их замене)

Следующим шагом был бы анализ и прогнозирование поведения людей в реальности. Например, прогнозирование поведения группы подвыпившей молодежи на пустынной ночной улице около банкомата: провести прогноз, насколько они опасны для дорогого имущества банка, и по его результатам принять решение о вызове туда наряда полиции.

Перспективным направлением представляется и анализ геолокационных данных о клиентах, поступающих с банкоматов. Это может помочь в противодействии мошенничеству, например, при блокировке сомнительных операций.

Работа с персоналом

Перспективным выглядит использование технологий Big Data сотрудниками HR. Не секрет, что кадровики и сейчас пробивают кандидата на вакансию через соцсети. Причем отсутствие человека в соцсетях тоже считается настораживающим фактором: или человек не современен и не владеет компьютерными технологиями, или ему есть что скрывать. Но, понятное дело, ручной анализ неэффективен. Лучше процесс автоматизировать.

И если технологии Big Data уже могут определить беременность у ничего не подозревающей американской пятнадцатилетней школьницы и предложить ей скидку на подгузники, то неудивительно, что они могут прогнозировать, как долго потенциальный кандидат продержится на работе. И для этого Big Data в российских банках уже используется. Например, в Сбербанке, о чем рассказал в своем интервью генеральный архитектор банка Андрей Хлызов

Об этом банки не говорят, но ничто не мешает контролировать настроения и уже принятых на работу людей. Например, всем ли доволен сотрудник? Не собирается ли увольняться? И принять решение — поднять ему зарплату, чтобы не уходил, или, наоборот, сократить и поискать более лояльного кандидата.

Схема использования Big Data в банке

Примером использования Big Data в российских банках может служить проект банка «Тинькофф». В банке уже восемь лет используются BI-системы, создано традиционное хранилище данных Data Warehouse (DWH), в котором накоплено 80 Тб данных ( в течение двух лет планируется расширить объем данных до 700 Тб), а система Big Data стала дополнением к этой системе.

«Big Data — это прежде всего внешние данные, — считает руководитель управления хранилищ данных и отчетности банка „Тинькофф“ Сергей Сотниченко. — И Big Data сейчас в основном это Hadoop».

Перед управлением DWH была поставлена большая задача — анализировать интересы и поведение посетителей сайта банка. Внешние источники порождали колоссальный объём текстовых полуструктурированных данных, что, конечно, для традиционного DWH, построенного в банке на массивно параллельной СУБД Greenplum, совсем не подходило.

В итоге в банке был развернут кластер Hadoop на основе дистрибутива Cloudera, который лег в основу целевого хранилища данных, а точнее озера данных, для внешних данных. Были выделены основные концептуальные слои данных:

RAW — слой сырых данных, куда загружаются файлы, логи, архивы самых разнообразных форматов данных,

ODD — Operational Data Definition, куда загружаются данные в формате, приближенном к реляционному, в том числе данные, полученные в результате предобработки данных из RAW перед загрузкой в DDS;

DDS — Detail Data Store, где собирается консолидированная модель детальных данных. Для хранения данных в этом слое была выбрана концепция Data Vault;

MART — прикладные витрины данных.

С Hadoop работают Data Scientist и системы Machine Learning. Этим в банке занимается специальная лаборатория Big Data. Она же отвечает за подготовку и качество данных, подготовку данных для маркетинга. Данные из Нadoop и СУБД Greenplum используются для систем бизнес-аналитики, пользователями которой могут быть уже обычные бизнес-службы банка. Data Scientist генерируют много гипотез и предлагают их бизнесу, который дает их оценку — обратную связь

Действительно, Hadoop — фреймворк, предназначенный для построения распределённых приложений для работы с данными очень большого объёма, при котором приложение разбивается на множество независимых частей, каждая из которых может исполняться на отдельном узле, многими считается чуть ли не синонимом термина Big Data.

Впрочем, с утверждением, что Big Data это только Hadoop, не согласятся другие разработчики. Например, Data Factory в банке CaixaBank реализуется на решениях Oracle. Но в российских реалиях процесса импортозамещения и войны санкций ставка на Open Source для банков выглядит все же предпочтительней.

Бизнес-аналитика

«Аналитика больших данных позволит банковским организациям лучше контролировать информацию внутри компании и выявлять признаки мошенничества намного быстрее, чем это было возможно раньше», — заявила в начале 2014 г. Авива Литан, ведущий аналитик и вице-президент Gartner Research.

Действительно, Big Data может быть хорошим инструментом подготовки данных для анализа состояния не только клиентов, но и для подготовки отчетов о состоянии самого банка, повышая эффективность существующих BI-систем. К ним относятся:

Ad hoc-отчетность — отчетность по желанию и в любой момент времени;

регулярная отчетность — принятые в банке формы отчетности, на базе которых производятся какие-то действия, например строится KPI. К ней же относится отчетность для регуляторов;

прогнозная отчетность, например, сколько будет у банка клиентов и куда лучше вкладывать деньги;

операционная отчетность — понимание того, что на данный момент происходит в банке — объем транзакций, число выданных кредитов.

Примером такого использования технологий Big Data может служить все тот же банк «Тинькофф». Добавление внешних источников информации и обработка их с помощью технологий Big Data позволяют значительно увеличить количество данных, доступных для анализа, дают возможность проанализировать рынок и получить понимание тенденций его развития, оценить реальное положение банка на рынке и сделать более точные прогнозы.

Другой пример — проекты банков по анализу больших данных для оптимизации размещения и загрузки банкоматов. Лишнюю наличность в банкоматах держать невыгодно, но и раздражать клиентов, не имеющих возможности снять деньги, банкам не хочется. Решения, основанные на анализе данных, поступающих с банкоматов, и информации из всевозможных внешних источников, позволяют построить модель, прогнозирующую потребность в наличности. На основе оценки оптимального объема денег в банкоматах можно составить график инкассации банкоматов, снизить число инкассаций и жалоб от недовольных клиентов.

Еще одна сфера оптимизации банкоматов с применением больших данных — определение наилучших точек их размещения. Где ходят клиенты банка, где им удобней снимать деньги? Тут уже не обойтись без данных телеком-операторов.

Стоит или нет?

«Big Data как секс у подростков: все говорят об этом, но никто реально не знает, что это такое и что с этим делать, каждый думает, что другие уже успешно это делают и каждый заявляет, что тоже успешно это делает», — четко сформулировал американский профессор Дэн Ариэли. Эта фраза хорошо характеризует и наш рынок.

«Мы в России еще даже первый шаг не сделали во внедрении Big Data, только ногу занесли. Просто есть те, кто думает, что что-то понимает в этой теме», — считает Сергей Мацоцкий, председатель правления IBS.

Действительно, есть попытки технической реализации, заявления об успешной монетизации, но все же в плане реальной коммерческой отдачи как-то все мутно. Банки по-прежнему делают основной упор на анализе структурированных данных методами классической бизнес-аналитики.

Объемы данных стремительно растут, но количество внутренних данных российских банков, как правило, не так велико, чтобы нельзя было обойтись классическими средствами. А об анализе внешних данных — сookies клиентов, поисковых запросов, соцсетей, СМИ — подавляющее число наших банков еще и не думает. Особенно в нашей реальности, когда большинство банков озабочено проблемой выживания. И вопрос внедрения технологий Big Data даже не стоит.

Но все же, хотя мы только в начале большого пути, процесс идет. Сейчас проекты по Big Data ведутся в Сбербанке, Газпромбанке, ВТБ24, Альфа-Банке, ФК «Открытие», Райффайзенбанке, Ситибанке, Нордеа-Банк. Так что, во всяком случае, у крупных ведущих банков, понимание, что за технологиями Big Data будущее, есть.

Автор статьи — к.т.н., опыт работы в банках более 20 лет.