НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Большие данные в Облаках под NoSQL и Hadoop

Сергей Бобровский
05.03.2013 12:07:07

Этот унылый слоган воплощает самые негативные мэйнстимовские ИТ-тренды сегодняшнего дня. John De Goes, специалист по Big Data, не выдержав массированной маркетинговой серости, даже возопил: "Big data is dead. What’s next?".
Дескать, Big Data пихается сегодня в любой пресс-релиз, хоть немного связанный с СУБД, аналитикой или облачными технологиями, и тем самым это реально важное инженерное направление оказалось полностью замыленным.

Действительно, сегодня трудно считаться "инновационным", если используется обычный хостинг, а не облачный, база данных умещается в гигабайт, и задействована классическая реляционная СУБД на одном физическом сервере.

Типичные определения Больших данных подразумевают столь большие физические объемы данных и их некую "комплексность", что традиционные СУБД с ними не справляются. Также модно упоминать экспоненциальный рост объемов данных и стращать им: типа, если вы сегодня же не перейдете на технологии Big Data, уже завтра работа вашей компании остановится.

Данные в последние годы действительно растут очень быстро -- но в весьма узких сферах, которые от интересов 99% рядовых компаний далеки. А связаны эти сферы прежде всего с развитием интернет-сервисов: социальные сети на сотни миллионов пользователей, многопользовательские игры, фото-видео ресурсы, глобальные поисковые движки. Тут же рядом телефонно-мобильные сервисы, масштабные службы э-коммерции, и ряд научных проектов. Но сколько в мире социалок или поисковиков, которым надо быстро обрабатывать терабайты данных? Сколько реально крупных сотовых операторов, видеохостеров, банков, сложных научных проектов? Наверное в общей сложности и сотня не наберется.

Относительно недавно ведь и трехдюймовая дискета считалась уникальным достижением, а база объемом в мегабайт -- Очень Большой. А через 10 лет петабайтный диск в ноутбуке будет типовым явлением. И наверняка он, как и сегодня, тоже будет забит под завязкуsmile:)

"Большие данные" фактически начинаются тогда, когда в организации начинаются проблемы с обработкой существующих данных -- например, отчеты формируются не секунды, а часы. Объем же этих данных совсем не обязательно будет Большой -- в том смысле, что под их обработку надо спешно закупать динамически масштабируемое облако, организовывать распределенную обработку с помощью Hadoop и разворачивать NoSQL СУБД, тратя на все это немалые средства. В первую очередь это касается типовых КИС, которые еще много лет будут прекрасно обходиться естественно растущими мощностями физических серверов и функциональностью общеизвестных РСУБД. Но даже если КИС при выросшей БД заметно тормозит, это совершенно не повод бросаться в архитектуры Больших данных -- скорее всего, просто эта система была исходно плохо спроектирована.

Трудно было в эпоху до-Big Data представить вариант стандартной корпоративной системы, накопившей такие объемы данных, с которым бы не справлялась в реальном времени любая из брендовых РСУБД. Это ведь сотни тысяч операций в секунду, а пересылку данных по локальной сети вообще можно считать мгновенной. Например, даже в Bank of America внутренние БД занимают считанные гигабайты. Понятно, что таких баз может быть не один десяток, но ведь это мега-банк. И даже он вполне может обойтись без Big Data (а может, и обходится).

Поэтому, если ваша КИС тормозит, это почти всегда вина её создателей. Не стесняйтесь, предъявляйте юридические претензии вендорам: обеспечьте нам за свой счёт быструю работу своей системы, или компенсируйте временные издержки материально!

Комментариев: 0

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии