НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Как рождаются Большие данные?

Сергей Бобровский
22.03.2012 10:50:26
Теги: Big Data

Потребность в Big Data объясняется сегодня "взрывным ростом объемов корпоративной информации", но если исключить из этого объема видео-аудио, то реальные "размеры", прежде всего текстовые данные и сопроводительные изображения, окажутся совсем не такими и внушительными. Например, объем пресловутой библиотеки Конгресса США не превышает двух десятков терабайтов. "Сгенерировать" за сутки мегабайт оригинальных текстов-документов не так просто даже самой крупной организации, но тогда на одном гигабайте диска можно уместить трехлетний архив работы организации. И где же они, эти Большие данные?

Ситуацию комментирует Russell Richardson, ведущий архитектор облачных систем армии США (надеюсь, что доживу до времени, когда можно будет сослаться на аналогичную должность российского специалиста). Реализуемые им проекты активно используются в военной разведке, и вот что Richardson говорит по этому поводу: "если мы возьмем все накопленные за последние 50 лет разведывательные данные, то они все уместятся на диске объемом 500-600 гигабайтов".

Но вот после того, как над этим массивом информации потрудились аналитики, проиндексировали все мало-мальски значимые вещи, по всей видимости, создав некую вики и быстрый многофункциональный поиск, результирующая БД заняла уже несколько петабайтов!

То есть пока данные "сырые", для их хранения и предварительной обработки достаточно классических технологий. А вот как только потребуется развитая аналитика, без Big Data уже сложно обойтись.

Комментариев: 5

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

Стельмах Сергей
22.03.2012 13:48:35

Да, занятно. Я так понимаю, Большие данные-данные, считающиеся неструктурированными. 500 гигабайт ценной инфо в разведке, согласен, не много. Совсем другой обьем данных, например, в медицине.

22.03.2012 14:10:56

Цитата
То есть пока данные "сырые", для их хранения и предварительной обработки достаточно классических технологий

Наверное, все таки зависит от области.
Например, ритейл сам по себе порождает очень приличные объемы (обмен с поставщиками, транзакции покупателей, всевозможные движения по складам, списание остатков, ...).

Ну а так, да, наверное, каждый шаг обработки добавляет свои результаты, которые тоже приходится хранить.

22.03.2012 16:00:42

Да, еще в телекоме, финансах, OLTP разных наверняка объемные транзакционные базы. В контексте поста конечно корректнее говорить о классическом документообороте, слабо структурированном.

Илья Дуров
23.03.2012 00:16:36

Можно взять файл размером, скажем, 200 килобайт, исправить пару опечаток и сохранить под новым именем.
Получим плюс несколько байт новой информации, и плюс 200 килобайт в хранилище.
Можно хранить транзакцию в виде небольшого набора сумм и номеров счетов, а можно в виде файла платежного документа, или скана (картинки!) бумажной платежки. И это уже мегабайты дополнительной информации.
По сути мы храним много чего просто так, на всякий случай.
Загляните в свою рабочую почту - сколько хранится там писем? 99% из них ни Вы сами, ни, тем более, кто-то еще никогда не откроет и не прочитает. Это Архив! Но это и вечно растущие гигобайты информации...

23.03.2012 10:45:04

У военных эти полтерабайта хоть немного, но нормализованы, минимальной метаинформацией сопровождены. Конечно, не 3нф, но все же... А то, что часто на наших ПК творится, да, без хорошего искусственного интеллекта сложно разобраться.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии