Большинство предприятий буквально затоплено данными. Практически в каждом отраслевом секторе — будь то здравоохранение, финансовые услуги, торговля или производство — объемы данных растут экспоненциально.

В этих безбрежных репозиториях скрывается золотая жила бизнес-секретов, возможностей и потенциального успеха. Но заставить всю эту информацию заработать — как традиционные виды данных, так и неструктурированную информацию, генерируемую социальными сервисами, включая видео, — устрашающе сложная задача.

“Многие организации не только имеют данные транзакций за 30 и более лет, но еще копируют огромные объемы мультимедийных данных, — сказал Грег Кертис, главный технологический стратег и генеральный директор Accenture. — Соединение и практическое использование всей этой информации является вызовом нашего цифрового века. Сегодня лишь считанные организации полноценно используют весь потенциал своих данных”.

Разумеется, это большая и сложная задача. Как показало обследование 5000 организаций исследовательской и консалтинговой фирмой Corporate Executive Board (CEB), умение анализировать данные и выбирать из них ценную информацию приоритетно для глобальных организаций, но лишь немногие из них достигли в этом ощутимого успеха.

Согласно исследованию CEB, только 38% служащих и 50% старших управленцев умеют принимать на основе данных правильные решения. Для многих организаций огромным риском является переизбыток слепой веры в анализ. Свыше 40% служащих больше доверяют формальному анализу, чем здравому смыслу, однако около 20% действует сообразно собственной интуиции.

Хорошие решения на базе анализа чаще всего удаются “информированным скептикам”, умеющим эффективно сбалансировать анализ и здравый смысл, отмечает CEB. Такие люди обладают сильными аналитическими способностями и прислушиваются к мнению со стороны, но вместе с тем способны не соглашаться и приходить к собственным выводам.

В современной среде, управляемой данными, разработка четкой стратегии и внедрение плодотворных решений по аналитике больших объемов данных уже не является вопросом выбора. “Это неизбежность для любой отрасли, — считает Калиан Вишванатан, директор Global Consulting Practices Information Management при Tata Consultancy Services. — Анализ больших данных изменяет бизнес и выявляет новые риски и возможности. И здравомыслящие организации ищут пути, чтобы он эффективно работал”.

Управление данными в новую эру

Еще на заре компьютеров компании искали пути управления и использования постоянно растущих объемов данных. Фокусом этого тренда являются “большие данные” (big data) — понятие, включающее значительное расширение как объемов данных, так и числа их точек контакта. По оценке консалтинговой фирмы McKinsey & Co., типичная крупная организация сегодня хранит около 200 Тб данных.

Компаниям также надо управляться с быстро нарастающими объемами неструктурированных данных, трудно вписывающихся в традиционные СУБД или хранилища данных. По словам Кертиса, в последние годы эти типы данных испытывают экстремальное расширение и становятся частью корпоративных информационных ресурсов.

Большие данные могут раскрыть свой внутренний потенциал. Их можно сделать более прозрачными и доступными для регулярного использования; богатые и широкие множества данных могут дать углубленное понимание сути вещей; они способны помочь детализировать картину рынка для направленных маркетинговых кампаний и методов продаж, а также связать факты в единое целое, чтобы понять потребности в новых продуктах и сервисах, возможно не попадавших в поле зрения компании. Организации, эффективно использующие большие данные, получают значительные конкурентные преимущества, перед ними открываются новые возможности для развития бизнеса.

Однако освоение больших данных не сводится к установке некой единичной системы, позволяющей автоматически пожинать результаты. Нужно скомбинировать правильные технологии и инструменты, выстроить правильные рабочие циклы и политику, найти кадры, способные заниматься аналитикой и работать с прогнозно-аналитическим ПО, а затем создавать продукты и сервисы, удовлетворяющие нуждам быстро меняющегося рынка.

“Это требует немалых инвестиций в организацию информационных хранилищ, интеграцию данных, средства бизнес-аналитики, визуализации данных и прогнозного моделирования. Также необходимо научиться использовать алгоритмы распознавания образов, связей и взаимодействий”, — пояснил Вишванатан.

Amazon на передовой

Одной из компаний, выдвинувшихся на передовую линию в освоении больших данных, стал интернет-оператор розничной торговли и сервис-провайдер Amazon. Это неудивительно для компании, которая имеет дело с петабайтами данных и чрезвычайно нуждается в их максимальном использовании для понимания поведения покупателей, улучшения качества операций и снижения затрат, стимулирования инновационного развития продуктов и в конечном счете для повышения своих прибылей.

Amazon использует среду высокой масштабируемости с прибавлением облачных ресурсов, позволяющую разобраться в данных и получить ответы за считанные часы или минуты, а не за дни или недели, рассказал Питер Сирота, генеральный менеджер инициативы Amazon Elastic Map Reduce (EMR).

По его словам, Amazon.com пользуется очень разнообразными источниками данных — от неструктурированных и полуструктурированных log-файлов серверов приложений до структурированных данных, извлекаемых из различных СУБД. Эта среда также позволяет Amazon и ее клиентам хранить и перерабатывать все типы данных (в том числе изображения, видео, генетические последовательности, статистику данных метеостанций, а также данные сторонних источников, таких как Twitter, Facebook или Salesforce) с конечным прицелом на улучшение базы данных продаваемых продуктов и анализ метрик, от которых зависит операционная эффективность компании.

В распределенной обработке информации с привлечением неструктурированных данных онлайновый гигант использует инфраструктуру с открытым исходным кодом Apache Hadoop. А реляционные СУБД позволяют Amazon создавать отчеты и оптимизировать выполнение типовых запросов к структурированным данным.

По словам Сироты, Hadoop и реляционные СУБД — взаимно дополняющие технологии для Amazon. А благодаря своему сервисному продукту Simple Storage Service (Amazon S3), вмещающему петабайты данных со встроенными инструментами обработки и анализа данных и data mining, Amazon преобразует свое пространство больших данных как для своих внутренних операций, так и для внешних фирм, пользующихся ее сервисами.

Облако, отмечает Сирота, радикально изменило возможности работы с большими данными: “Вы можете быстрее разобраться в существе стоящего вопроса, причем с гораздо меньшими затратами, чем с традиционными технологиями… Облако обеспечивает мгновенную масштабируемость и способность к адаптации. Оно расширяет возможности задавать интересные вопросы к вашим данным и получать быстрые и содержательные ответы. При целостном и регулярном анализе большие данные способны изменить то, как вы взаимодействуете с клиентами и реагируете на их нужды”.

Ветры перемен

Все больше компаний и государственных организаций обращаются к большим данным для улучшения своих бизнес-моделей. По словам Вишванатана, рекламодатели просеивают горы данных, чтобы лучше понять поведение покупателей и факторы, влияющие на конечные результаты. Фирмы розничной торговли стараются создать более точные профили покупателей, учитывая покупательское поведение, психографию и события личной жизни покупателя, а также корреляцию между этими факторами.

Фирмы, оказывающие финансовые услуги, отыскивают связи внутри разных данных для создания новых сервисов и более эффективной продажи действующих видов услуг. А организации здравоохранения используют большие данные для лучшей результативности медицинских услуг и улучшения структуры затрат.

Пример компаний, усвоивших эту концепцию, — Vestas Wind Systems (Рандерс, Дания), оператор ветровых электростанций для коммунального энергоснабжения. Компания, обслуживающая больше 44 000 турбин в 67 странах, использует огромные массивы данных, чтобы лучше понять, где надо размещать турбины для оптимизации производительности.

Как рассказал Ларс Кристиан Кристенсен, вице-президент компании по размещению станций и прогнозированию, они анализируют 178 параметров, в том числе облачность, влажность, солнечное излучение, спутниковые изображения, карты обезлесения местности, барометрическое давление и т. д. Более того, исследователи должны исследовать изменения параметров с часовой сеткой времени за период в 12 лет. Это гигантский многомерный куб информации.

Vestas купила систему аналитики больших данных IBM, чтобы извлекать информацию из БД, которая в ближайшие четыре года может достигнуть объема свыше 20 Пб. А раньше аналитики были вынуждены сами просеивать горы данных, на что могли уходить недели и очень много ресурсов.

Сегодня Vestas пользуется ПО IBM BigInsights на 1222 связанных и оптимизированных по нагрузке серверах System x iDataPlex, образующих ее суперкомпьютер Firestorm. Он может выполнять 150 трлн. вычислительных операций в секунду и в пределах 1 ч анализировать массивы данных для определения наилучшего местоположения турбин.

“Мы можем быстро давать своим заказчикам ответы, помогающие более эффективно экономически обосновать проект и планировать ожидаемые доходы, — сказал Кристенсен. — Система значительно уменьшила сложность планирования. Мы трансформировали способ обработки данных и весь процесс анализа”.

Необычность проблем

Кертис отметил, что большие данные могут создавать ряд необычных проблем. Например, надо разобраться, как можно объединить разнородные наборы данных, чтобы выявить новую информацию. Для этого нужны аналитики и бизнес-эксперты, имеющие новаторское мышление.

Организация должна использовать отсортированные формы неструктурированных данных, включая видеоклипы, аудиофайлы и ленты социальных сетевых сервисов. Нужно найти способ распознавать эти файлы и понять, какие данные в них содержатся и как их можно эффективно использовать, пояснил Кертис. Несмотря на существование определенных методов, включая использование метаданных, эта область еще нова и находится в развитии.

Кроме того, предприятие должно уладить вопросы общего управления, особенно в связи с тем, какое бизнес-направление будет владеть и управлять данными и кто должен иметь доступ к транзакциям. Эти проблемы особенно актуальны для финансовых фирм, имеющих разные бизнес-направления, такие как обслуживание физических или юридических лиц, управление активами состоятельных клиентов, брокерское дело и др.

В ряде случаев эти грани могут размываться из-за того, что данные реально находятся на серверах бизнес-партнера или сервис-провайдера. “Очень важно, чтобы данные эффективно управлялись и чтобы имелась их одна золотая копия. Вопросы общего управления должны быть приведены в полный порядок”, — заметил Кертис.

Подключая социальные сервисы

Компании также стараются включать в свои модели больших данных социальные среды. Matrix (Милан, Италия), провайдер услуг интернет-доступа и онлайновых бизнес-сервисов, помогает разным компаниям определять цифровую стратегию, укреплять доверие клиентов к своему бренду и управлять публичной репутацией компании.

Используя SAS Content Categorization и SAS Text Miner, Matrix может предоставлять услуги сложного мониторинга и аналитики, связанные с работой поисковых роботов и анализом общения людей в социальных интернет-сервисах и другой активности, пояснил директор компании по продажам Алессандро Петрелла.

Компания постоянно собирает данные из более чем 500 новостных лент и онлайновых источников и затем перебрасывает эту информацию в аппаратно-программное хранилище данных Netezza. Далее Matrix пропускает эти данные через ПО SAS для очистки и распределения по категориям с использованием общепризнанных бизнес-систематик. Matrix регулярно уточняет свой алгоритм и добавляет новые элементы данных.

На сегодня объем базы данных превышает 2 Тб, а ее способность отслеживать настроения и мнения людей о какой-либо компании с каждым днем растет. “Мы можем быстро и эффективно обрабатывать данные”, — считает Петрелла.

Недавний опрос руководства компаний, осуществленный консалтинговой фирмой Ovum, показал, что почти две трети респондентов считают главным результатом обработки больших данных улучшение операционных процессов, процессов принятия стратегических решений и обслуживания клиентов. Не менее важно, что интерес к большим данным сегодня уже выходит за пределы круга крупных предприятий. Исследование показало, что 38% компаний, располагающих хранилищами данных объемом более 1 Тб, имеют обороты менее 50 млн. долл.

В Ovum считают, что в ближайшую пару лет потребности бизнеса в обработке больших данных возрастут, так как организации ищут пути улучшения анализа покупательских сегментов, предотвращения перетекания клиентов к другим поставщикам, управления сетями общественного транспорта и решения множества других задач.

Кертис считает, что все организации (а особенно их ИТ-подразделения) должны разобраться в динамике больших данных и со временем разработать ясную стратегию их инструментального использования и управления ими. Он рекомендует моделировать стратегии данных, учась на примерах таких компаний, как Amazon, Google и Yahoo!, оперирующих крупнейшими в мире центрами обработки данных и освещающих путь в вычислительное будущее.

Кертис также советует лидерам ИТ и бизнеса действовать сообща, чтобы вырабатывать целостное понимание больших данных: “Это должен быть взаимный образовательный процесс. Согласование позиций абсолютно необходимо для продвижения проекта”.

Хотя большие данные еще переживают период юности, этот тренд всерьез и надолго, уверен Вишванатан. Он добавляет, что поскольку покупатели переходят на заказы через смартфоны, планшеты и другие цифровые устройства, компании аккумулируют все больше и больше данных: “Организации, осваивающие анализ больших данных и эффективно его использующие, имеют явные перспективы получить конкурентные преимущества. Они могут осмысливать проблемы и тенденции на таком уровне, который и не снился всего несколько лет назад”.