Вот каково мнение Caribou Honig по Big Data:
[spoiler]Моднейшим словечком 2012-го года стали Big Data. Ни одна ИТ-конференция не может сегодня обойтись без сессии по этой теме. Правда, тусуются на этих сессиях хорошо знающие друг друга "эксперты по инфраструктурам", которые уже давно согласились друг с другом, что "Oracle -- это динозавр", а "Open source -- не значит бесплатное" [что напоминает обсуждения на pcweek.ru ].
Но Honig считает, что при этом упускается главное.
Стратегия "по данным" должна начинаться с корпоративной стратегии.
Выбирать между SQL и Hadoop имеет смысл только после того, как определены цели развития организации и пути ее достижения. Иначе получается, что мы уже держим в руках молоток, но все еще ищем гвоздь -- создаем отличное хранилище данных и BI, которые дают ответы на никому не нужные вопросы.
Информация в массивах Больших данных подчиняется закону убывающей доходности. Непрофильным специалистам может показаться, что если мы накопим в БД в сто раз больше данных, то и ценность их вырастет в сто раз. Нет! По моему опыту, новые объемы приносят лишь скромную второстепенную отдачу, не более. Зависимость здесь не линейная, а логарифмическая.
Важно сосредоточиться на разнообразии имеющихся данных. Мне не нужна в тысячу раз большая детальность, лучше предоставьте дополнительный взгляд на ситуацию. Не надо бесконечно повышать разрешение черно-белого изображения, лучше добавьте цвета.
Например, автостраховые компании десятилетиями ведут истории клиента по шаблонным критериям, но буквально в последние годы появилась возможность сбора телеметрических данных по манере вождения водителя. Добавить к этому хорошей аналитики -- и получится самая точная модель опытности водителя.
Но это уже не Большие данные, а Лучшие данные. Ведь подчас один бит данных может значить для страховщиков очень много.
Давайте не будем становиться жертвами гонки за мегапикселами, сантиметровой точностью определения координат и отслеживанием каждого сайта, которые мы посетили за последние десять лет. Data-стратегии совсем не важно, чей петабайт больше. Закон убывающей доходности можно сразить прежде всего телематикой, мобильными и социальными технологиями.
В отличие от Облаков, у которых содержание очень сильное и довольно всеобщее.
"Большие" данные - это не модный термин, это ровно то что указал Сергей - "дешёвая и сердитая" возможность оперировать многими тера-пета-..байтам информации. Зачем? - другой вопрос (есть у Сергея и по этому поводу хорошая заметка - "сначала найдите проблему, а потом примените технологию").
Для маркетинга возможность рыться во всей кучи информации - бесценна. Неочевидные зависимости, крайние случаи и т.д. - на "выборках", сколь угодно интеллектуальных, этого можно не увидеть.
Для оценки рисков - тут уже "case by case", вполне часто можно и без полных "больших" данных обойтись.
Ну а уж операционные системы "глобального" уровня без масштабирования, которое дает, например, подход MapReduce - вообще тяжело (но можно - только гораздо дороже).