[spoiler]Для этого воспользуемся подсказкой от IBM, которая на днях инвестировала 100 млн долл в программы анализа петабайтных данных -- причем, что важно, не только удобно организованных (ведь сегодня не структурированы 80% корпоративных сведений), и в развитие двух десятков сервисов по этому направлению.
Система IBM InfoSphere BigInsights представляет многолетний плод труда сотен ученых по совершенствованию открытой системы Apache Hadoop для хранения и параллельной обработки петабайтных данных. InfoSphere BigInsights дополняет ее технологиями "умного" анализа разнотиповой информации (видео, содержимое социальных сетей, изображения), которые задействованы, в частности, в комплексе IBM Watson, побеждающего людей в интеллектуальном шоу Jeopardy.
Бесплатную базовую версию BigInsights можно скачать тут.
Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:
-- jaspersoft.com;
-- Revolution Analytics (на базе языка R для мат.статистики);
-- Map/Reduce tools;
-- Pig!;
-- Chukwa;
-- Hive.
По итогам написан ряд статей и постов, последняя статья опубликовалась как раз в эту пятницу: http://www.pcweek.ru/themes/detail.php?ID=131722
Надо сказать, что подход "хранить все" - это не решение проблемы. Чисто технически такой вариант выглядит привлекательно и в целом реализуем (проще хранить все, не тратя время на раздумывания - что нужно, а что не нужно). Но на самом деле такой подход создает уже в недалеком будущем серьезные проблемы.
Все же хранить нужно не все, а то, что нужно...
Недавно довелось побывать на крупномасштабном клиентском мероприятии, где в ответ на чей-то вопрос с высокой трибуны была высказана интересная мысль: “Объем накопленных данных экспоненциально растет не столько потому, что в них есть какая-то необходимость, cколько потому, что стремительно дешевеют cистемы хранения этих данных и заниматься чисткой информационных “авгиевых конюшен” становится экономически невыгодно. Проще и дешевле приобрести новую СХД”.