НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Прогнозное моделирование для всех

Как быстро организовать аналитику на Hadoop.

[spoiler]Опенсорсная Java-система Cascading.org -- это замечательная платформа для организации сложных аналитических задач Больших данных, а также построения соответствующих рабочих процессов.



Она призвана упростить управление и раскопку данных на платформе Hadoop, в качестве расширений включает Lingual (реализация ANSI SQL), а главное -- великолепную библиотеку машинного обучения Pattern, позволяющую быстро создавать прикладные экспертные системы, способные например выявлять фрауды (chargebacks, refunds, да и любые мошеннические транзакции). Pattern понимает множество моделей, описанных на языке разметки для прогнозного моделирования Predictive Model Markup Language (PMML), в ближайших планах поддержка технологий нейронных сетей. Особое внимание в Pattern уделено миграции PMML-моделей из крупнейших корпоративных пакетов соответствующего профиля, прежде всего SAS, Microstrategy, кодовых баз на языке R и т. п.

Понятно, что соответствующие алгоритмы можно закодировать на Java непосредственно в MapReduce, однако это требует очень хороших знаний Hadoop и Java, а Pattern ориентирован на прикладных аналитиков, работающих со сторонними упомянутыми пакетами, и приданных им в помощь рядовых кодировщиков. Достаточно написать буквально пару строк на PMML, дабы модель из SAS заработала в параллельном кластере Hadoop. Для более сложных задач доступен Cascading API.

Но с т.зр. инновационности хочется отметить эту представленную на летнем саммите Hadoop систему прежде всего как очень мощную и многопрофильную платформу машинного обучения под задачи BI, доступную программистам на Clojure, Scala, Python и др.