НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Как анализировать большие данные

Сергей Бобровский
06.06.2011 10:24:09

С экстремально растущими корпоративными данными больших объемов (так называемыми Big Data) надо что-то делать. Общие рекомендации McKinsey Global Institute были приведены в посте "Оцифровывать всë!", а теперь посмотрим, какие же конкретно технологии возможно задействовать для анализа пета- (а скоро уже и экза-) байтных массивов информации.

Для этого воспользуемся подсказкой от IBM, которая на днях инвестировала 100 млн долл в программы анализа петабайтных данных -- причем, что важно, не только удобно организованных (ведь сегодня не структурированы 80% корпоративных сведений), и в развитие двух десятков сервисов по этому направлению.

Система IBM InfoSphere BigInsights представляет многолетний плод труда сотен ученых по совершенствованию открытой системы Apache Hadoop для хранения и параллельной обработки петабайтных данных. InfoSphere BigInsights дополняет ее технологиями "умного" анализа разнотиповой информации (видео, содержимое социальных сетей, изображения), которые задействованы, в частности, в комплексе IBM Watson, побеждающего людей в интеллектуальном шоу Jeopardy.
Бесплатную базовую версию BigInsights можно скачать тут.


Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:
-- jaspersoft.com;
-- Revolution Analytics (на базе языка R для мат.статистики);
-- Map/Reduce tools;
-- Pig!;
-- Chukwa;
-- Hive.

Комментариев: 2

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

06.06.2011 10:43:08

Я месяц назад был на конференции EMC World 2011, где как раз в центре внимания было тема "Больших объемов данных". И что делать с ними.

По итогам написан ряд статей и постов, последняя статья опубликовалась как раз в эту пятницу: http://www.pcweek.ru/themes/detail.php?ID=131722

Надо сказать, что подход "хранить все" - это не решение проблемы. Чисто технически такой вариант выглядит привлекательно и в целом реализуем (проще хранить все, не тратя время на раздумывания - что нужно, а что не нужно). Но на самом деле такой подход создает уже в недалеком будущем серьезные проблемы.

Все же хранить нужно не все, а то, что нужно...

08.06.2011 22:09:33

Заниматься чисткой информационных “авгиевых конюшен” экономически невыгодно

Недавно довелось побывать на крупномасштабном клиентском мероприятии, где в ответ на чей-то вопрос с высокой трибуны была высказана интересная мысль: “Объем накопленных данных экспоненциально растет не столько потому, что в них есть какая-то необходимость, cколько потому, что стремительно дешевеют cистемы хранения этих данных и заниматься чисткой информационных “авгиевых конюшен” становится экономически невыгодно. Проще и дешевле приобрести новую СХД”.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии