НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

В защиту Малых данных

Тематика Больших данных добралась уже до ведущих деловых изданий мира. Так, Forbes предоставил колонку г-ну Caribou Honig, сооснователю инвестиционной структуры QED Investors, главу которой Nigel Morris издание Washington Business Journal объявило лучшим бизнес-ангелом 2009-го года.

Вот каково мнение Caribou Honig по Big Data:

[spoiler]Моднейшим словечком 2012-го года стали Big Data. Ни одна ИТ-конференция не может сегодня обойтись без сессии по этой теме. Правда, тусуются на этих сессиях хорошо знающие друг друга "эксперты по инфраструктурам", которые уже давно согласились друг с другом, что "Oracle -- это динозавр", а "Open source -- не значит бесплатное" [что напоминает обсуждения на pcweek.ru :)].
Но Honig считает, что при этом упускается главное.

Стратегия "по данным" должна начинаться с корпоративной стратегии.
Выбирать между SQL и Hadoop имеет смысл только после того, как определены цели развития организации и пути ее достижения. Иначе получается, что мы уже держим в руках молоток, но все еще ищем гвоздь -- создаем отличное хранилище данных и BI, которые дают ответы на никому не нужные вопросы.

Информация в массивах Больших данных подчиняется закону убывающей доходности. Непрофильным специалистам может показаться, что если мы накопим в БД в сто раз больше данных, то и ценность их вырастет в сто раз. Нет! По моему опыту, новые объемы приносят лишь скромную второстепенную отдачу, не более. Зависимость здесь не линейная, а логарифмическая.

Важно сосредоточиться на разнообразии имеющихся данных. Мне не нужна в тысячу раз большая детальность, лучше предоставьте дополнительный взгляд на ситуацию. Не надо бесконечно повышать разрешение черно-белого изображения, лучше добавьте цвета.

Например, автостраховые компании десятилетиями ведут истории клиента по шаблонным критериям, но буквально в последние годы появилась возможность сбора телеметрических данных по манере вождения водителя. Добавить к этому хорошей аналитики -- и получится самая точная модель опытности водителя.
Но это уже не Большие данные, а Лучшие данные. Ведь подчас один бит данных может значить для страховщиков очень много.

Давайте не будем становиться жертвами гонки за мегапикселами, сантиметровой точностью определения координат и отслеживанием каждого сайта, которые мы посетили за последние десять лет. Data-стратегии совсем не важно, чей петабайт больше. Закон убывающей доходности можно сразить прежде всего телематикой, мобильными и социальными технологиями.
Колесов Андрей
Все же я думаю, что Big Data - это в основном маркетинговая шумиха. Модный термин. Содержательная часть намного слабее шумихи. Довольно узкий класс задач.

В отличие от Облаков, у которых содержание очень сильное и довольно всеобщее.
Сергей Бобровский
С организационной т.зр. Big Data действительно почти ничего нового не несут, особенно если продуманной ИТ-стратегии нету. Но с технической, количество переходит в качество, классические РСУБД по цена/производительность петабайты тянут плохо, а спрос на шуструю обработку таких объемов "по дешевке" весьма высок.
Александр Сабитов
"Малые" данные - это оперативность и мобильность, зачастую достаточная погрешность.
"Большие" данные - это не модный термин, это ровно то что указал Сергей - "дешёвая и сердитая" возможность оперировать многими тера-пета-..байтам информации. Зачем? - другой вопрос (есть у Сергея и по этому поводу хорошая заметка - "сначала найдите проблему, а потом примените технологию").

Для маркетинга возможность рыться во всей кучи информации - бесценна. Неочевидные зависимости, крайние случаи и т.д. - на "выборках", сколь угодно интеллектуальных, этого можно не увидеть.
Для оценки рисков - тут уже "case by case", вполне часто можно и без полных "больших" данных обойтись.

Ну а уж операционные системы "глобального" уровня без масштабирования, которое дает, например, подход MapReduce - вообще тяжело (но можно - только гораздо дороже).