НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Зачем британским ученым Большие данные?

И как Cloudera собрала миллиард долларов за неделю.

[spoiler]Английское правительство основало Data Science Institute имени Алана Тьюринга. На его развитие выделено 42 млн. фунтов стерлингов. Цель -- битва за рынок бизнес-аналитики, который к 2016-му составит 31 млрд. ф. ст.

Что же будут изучать в британском институте? Из прикладных систем, это прежде всего Hadoop во всех его ипостасях, где конкуренция очень интенсивная.
Компания Boundary ежедневно анализирует 2 триллиона метрик работы прикладных облачных систем, четверть которых (на 20 млн. пользователей) базируется в Amazon. По ее данным, за последний год количество стартапов в сфере Big Data выросло в четыре раза! Так, стартап Splice Machine без проблем привлек 15 млн. долл. на реалтаймовую РСУБД поверх Hadoop. Что в нем такого особенного, на фоне аналогичных свободных решений? Утверждается, что "only Splice Machine supports real-time, ACID-compliant updates for both operational and analytical applications on standard Hadoop distributions".
Основатель Splice Machine, бывший эксперт по искусственному интеллекту НАСА, ничтоже сумняшеся заявил, что "for companies that want to leverage the cost and scaling advantages of Hadoop, they can finally replace traditional relational databases like MySQL, PostgreSQL, and Oracle with Splice Machine because it is a real RDBMS on Hadoop".

А New Relic представила Insights -- сервис реалтаймовой аналитики с помощью SQL-подобного New Relic Query Language. Ориентирован на изучение специализированной ниши поведения пользователей на сайтах (клики, транзакции и иные события).

Крупные вендоры BI также стремительно расширяют функциональность своих продуктов, базирующихся на этой платформе, стараясь привлечь к рабочему процессу пользователей, не обладающих специализированными знаниями. Так, MapR и Jaspersoft объявили  об интеграции своих решений: Jaspersoft BI будет работать в дистрибутиве MapR Hadoop (включая его облачный вариант в Amazon). Почти идентичный вариант представили Tableau Software и Splunk, который поставит неструктурированные данные во всевозможные визуальные механизмы и генераторы отчетов.

Меж тем сам Hadoop обновился в марте до версии 2.3.0. Среди его новых фич -- кэширование в памяти (с точностью до отдельных каталогов или даже файлов!), и иерархическое хранилище данных для HDFS, работающее в гетерогенном режиме -- на разных типах жестких дисков, флешей и ОЗУ в кластере.  

Из свежих новостей -- Cloudera, выпускающая ведущий корпоративный Hadoop-дистрибутив, за последнюю неделю марта собрала 900 млн. долл. инвестиций, из которых 740 млн. пришлось на Intel. Зачем это понадобилось Интелу? Ответ напрашивающийся: облака -- это ИТ-будущее; Интернету вещей нужна хорошая программная платформа; главное -- мир корпоративного компьютинга мчится от проприетарных систем-монстров в СПО и распределенные архитектуры, и сердцем такой трансформации становится Hadoop (как минимум, в плане бизнес-аналитики, которая, по большому счету, является конечным смыслом любой КИС). А чем больше узлов будет в инсталляциях Cloudera Distribution Including Apache Hadoop, тем больше продастся чипов Intel.