Обсуждение популярной сегодня темы больших данных (Big Data) сводится, как правило, либо к описанию инструментов для их обработки, либо к рассказу о принадлежности тех или иных информационных массивов к категории Big Data с учетом так называемых V-факторов, характеризующих их физический объем (Volume), скорость поступления в ИС (Velocity), разнообразие форматов и природы (Variety), потенциальной ценности для бизнеса (Value), сложности визуализации результатов анализа (Visualization). Гораздо реже встречаются реальные примеры практического использования больших данных. Одной из компаний, которой необходимо оперативно обрабатывать огромные объемы финансовой и экономической информации, несомненно, является Thomson Reuters. С ее техническим директором Андреем Масловым побеседовал научный редактор PC Week/RE Сергей Свинарев.

PC Week: Что представляет собой сегодня компания Thomson Reuters, чем она занимается и для каких направлений ее деятельности необходим сбор и анализ больших данных?

Андрей Маслов: Наша компания является признанным мировым лидером в области сбора и распространения рыночных данных (Market Data). Market Data — это быстрорастущий рынок, который предоставляет огромное количество разнообразных данных для пользователей финансовой сферы. Специфику подобных данных можно описать в трёх предложениях:

- во-первых, их нужно как можно быстрее доставлять пользователю.

- во-вторых, они должны быть агрегированы из как можно большего количества источников.

- в-третьих, эти данные должны быть проверены, а их источники полностью достоверны.

Объём обрабатываемых данных у нас достаточно велик, поскольку одновременно в сети компании поддерживается более 21 млн. финансовых инструментов. Каждый инструмент обладает своим уникальным идентификатором — RIC-кодом (RIC —Reuters Instrument Code). Например, отношение британского фунта к доллару США имеет код “GBP=”, Индекс Московской биржи ”.MCX”. Для достаточно большой их части скорость обновления велика и может превышать 100 тыс. апдейтов ежедневно. Это так называемые высоковолатильные инструменты. Яркий и наиболее известный пример такой волатильности — это динамика котировок валютной пары евро/доллар.

PC Week: Когда ваша компания начала применять технологии больших данных? Кто ими пользуется? Что это дает бизнесу Thomson Reuters и вашим клиентам?

А. М.: В 1980 г. Thomson Reuters успешно запустила свою собственную сеть для хранения рыночных данных IDN (Integrated Data Network), которая после этого много раз модернизировалась, но до сих пор является основной сетью рыночных данных компании. Распространение данных происходит по всему миру, причем выделяются три основных географических региона — Америка, EMEA (Европа, Ближний Восток, Африка) и Азия. Собирается, хранится и распространяется информация из внешних и внутренних источников. В настоящее время в качестве внешних источников подключено более 300 бирж, 4000 разнообразных финансовых институтов и 100 новостных агентств.

Такое разнообразие исходных данных позволяет нашим пользователям иметь полную картину финансовых рынков, быстро реагировать на их изменение, прогнозировать основные тенденции и торговать в режиме он-лайн. Для осуществления торговых операций нами создана отдельная сеть Dealing-3000.

PC Week: Какие V-факторы (Volume, Velocity, Variety, Value, Visualization) больших данных наиболее существенны для задач, решаемых Thomson Reuters? Как это отразилось на выборе инструментов Big Data?

А. М.: Для того чтобы предоставить нашим клиентам максимально качественный сервис, мы должны учитывать все перечисленные факторы. Финансовые пользователи — это элитная группа, которая очень требовательна к данным и их качеству. При этом они готовы компенсировать затраты на получение требуемых данных. Мой опыт подсказывает, что наиболее важные факторы для таких пользователей — это, во-первых, скорость обновления данных и их актуальность, а во-вторых, непрерывность потока данных. Под первым фактором я имею в виду получение данных в реальном масштабе времени из всех источников. Если они не актуальны или пришли с задержкой, то торговать по ним можно только себе в убыток. Нет смысла долго обсуждать второй фактор, так как любые перерывы ведут к серьёзным потерям для тех, кто работает в жестком временном режиме.

PC Week: Что получают ваши клиенты — специализированные решения для анализа больших данных или консалтинговые сервисы, базирующиеся на Big Data?

А. М.: Самые разные наборы данных из сети IDN можно получить с помощью нашего продукта EIKON, который разработан компанией специально для визуализации данных больших объёмов. Это уникальный продукт, отвечающий всем современным требованиям и позволяющий пользователям получать удобное “окно” в мир IDN, а также эффективно зарабатывать деньги. Но мы не ограничиваем их рамками нашего продукта и предоставляем открытый набор библиотек, благодаря которому они могут написать свои собственные приложения.

Что касается организаций, которым нужен только поток данных, то мы его можем предоставить, а далее организации имеют полную свободу по его обработке. Это направление стало очень популярно в последнее десятилетие, когда на финансовый рынок вышли технологии алгоритмического трейдинга — торговли, в которой решение о покупке/продаже принимается программными роботами, а не людьми. Естественно, только роботы могут эффективно и быстро справиться с обработкой такого мощного потока данных за минимальное время.

PC Week: Кто владелец массивов исходных данных? На каких условиях “закрытые” данные предоставляются конечным пользователям ваших решений?

А. М.: Сеть IDN принадлежит компании, и, как я уже упомянул ранее, данные поставляются из внутренних и внешних источников. Все данные поставляются сначала в IDN, а потом могут распределяться конечным пользователям по подписке. Пользователям доступны все справочники данных, которые накапливаются в системе, и они сами выбирают то, что им требуется. На основании подписки они заполняют декларацию по использованию тех или иных данных, которая служит основой для выставления счетов.

PC Week: Что является результатом работы ваших инструментов Big Data: конкретные рекомендации клиентам по тем или иным вопросам бизнеса (продавать акции конкретной компании, менять состав своего инвестиционного портфеля и т. д.) или удобную визуализацию предварительного анализа информационного массива, помогающую клиенту самому строить гипотезы и принимать решения?

А. М.: Данные, которые мы предоставляем, дают так называемый срез рынка. Мы поставляем инструменты для визуализации и принятия решения (EIKON, например). Для наших подписчиков мы проводим необходимые тренинги, помогающие понять структуру и возможности использования наших данных, а также учим правильно обрабатывать данные и строить графики. Мы делаем всё, чтобы пользователь был полностью готов для работы на этом специфическом рынке. Остаётся только одно — принять правильное решение, а сделать это он должен самостоятельно. На сам процесс принятия решения мы влиять не должны.

PC Week: Какие программные продукты лежат в основе решений Big Data, предлагаемых Thomson Reuters? Какой уровень квалификации необходим для работы с ними? Велики ли требования к ИТ-инфраструктуре?

А. М.: Поскольку область рыночных данных весьма специфична, основные программные продукты уникальны, и поэтому они разрабатывались силами наших специалистов. Это оправданно, потому что, например, обработка специфических рыночных данных традиционными СУБД будет занимать слишком много времени. По этой причине был создан специальный продукт TREP-VA (Velocity Analytic), который обеспечивает максимальную производительность СУБД при работе с рыночными данными.

Наш передовой продукт в области инфраструктуры — это TREP-RT(Real Time). Его мы разворачиваем на площадке крупных клиентов. У них есть потребность в получении мощных агрегированных потоков данных, большое количество пользователей, и им требуется гарантированная доставка данных. TREP-RT показал себя как высокоустойчивый и масштабируемый продукт. Он соответствует требованиям современных систем обработки рыночных данных и построен с учётом их дальнейшего развития.

PC Week: Есть ли компании в России, которые уже сегодня применяют решения Thomson Reuters? Можно ли оценить полученный ими экономический или иной эффект?

А. М.: В России у нас более 2000 клиентов. В частности, нашими подписчиками являются основные финансовые институты страны. Один из последних примеров успешных проектов в области Big Data — внедрение продукта TREP-VA в одном крупном российском банке. В рамках этого решения была реализована оценка соответствия торговых валютных сделок текущим рыночным показателям в соответствии с инструкциями Банка России. Указанная система позволяет анализировать сделки и определять, находятся они в текущем рынке или нет. В настоящее время проводится анализ всех сделок, проводимых на трейдинге банка по более чем 3000 инструментов. Внедрение этого решения позволило с помощью одной системы автоматизировать работу целого отдела.

PC Week: Спасибо за беседу.