Корпорация ЕМС объявила, что Банк «Тинькофф Кредитные Системы» завершил внедрение платформы хранения и аналитики сверхбольших объемов данных EMC Greenplum.
Во время внедрения проекта существовавшая в Банке инфраструктура в виде стандартной СУБД, работающая на тяжелых серверах SPARC-архитектуры, была заменена системой EMC Greenplum, построенной на базе архитектуры массивно-параллельных вычислений без разделяемых компонентов (MPP, Massive Parallel Processing). В этой архитектуре, которая была разработана специально для создания бизнес-аналитики и аналитической обработки, каждое устройство функционирует как самодостаточная СУБД, которая владеет определенной частью общих данных и управляет ими. Эта система автоматически распределяет данные и распараллеливает рабочие нагрузки запросов на все доступное оборудование, используя принципы Map Reduce.
В результате время решения аналитических задач сократилось минимум в десять раз, а для некоторых — более чем в 100 раз. Использование же в качестве узлов системы серверов «стандартной» архитектуры позволило получить экономически эффективную и неограниченную линейную масштабируемость вычислительных мощностей.
Сложность проекта, помимо развертывания новой инфраструктуры хранения данных, заключалась в необходимости интегрировать новые подходы к загрузке и извлечению данных с используемыми Банком аналитическими системами SAS Institute, сохранив при этом целостность и работоспособность действующих бизнес-процессов Банка. Для выполнения поставленной задачи была собрана проектная команда из консультантов компании Glowbyte Consulting, взявшей на себя функции системного интегратора, инженеров World IT Systems, отвечавших за настройку и эксплуатацию рабочих окружений и специалистов департамента ИТ Банка. Авторский надзор и аудит проектных решений осуществляли представители компаний EMC/Greenplum и SAS Institute. Кураторами проекта выступили CTO и основатель компании EMC Greenplum Люк Лонерган и Директор SAS Global Technology Practice Марк Торр.
В ходе проекта был осуществлен комплексный реинжиниринг более 350 процессов загрузки и преобразования данных, разработана библиотека ELT-трансформаций, оптимизированная для работы с Greenplum и SAS, создана инфраструктура прямого доступа бизнес-аналитиков Банка к детальному слою данных для проведения data mining исследований без привлечения ресурсов внутреннего ИТ, разработаны процедуры резервного копирования и аварийного восстановления данных.
Таким образом, Банк запустил платформу, готовую к загрузке данных в хранилище и обновлению аналитических витрин в режиме реального времени, что для компании, использующей знания о клиентах, как конкурентное преимущество, является приоритетным направлением.
В дальнейшем Банк планирует развивать не только инструмент Greenplum , адаптированный для массивно-параллельных вычислений, но также и Hadoop, предназначенный для обработки неструктурированных данных, и платформу Chorus, которая предоставляет возможность совместной работы с корпоративными данными, получаемыми из разных источников.