IBM объявила о принятии на себя обязательств по расширению поддержки открытого проекта Apache Spark. Голубой гигант намерен подключить более 3500 своих исследователей и разработчиков к разного рода проектам, связанным со Spark, а также создать в Сан-Франциско (США) собственный технологический центр Spark (Spark Technology Center), в котором вместе с сотрудниками IBM смогут трудиться и другие ученые и программисты, занимающиеся современными технологиями обработки данных. Компания также намерена широко использовать кластерную вычислительную среду Spark в своих аналитических и деловых платформах, в том числе Watson Health Cloud. Кроме того, функционал Spark будет предлагаться заказчикам в виде коммерческого сервиса в облаке IBM Bluemix, а семейство машинно-обучающих программных библиотек IBM SystemML будет распространяться по модели Open Source.

IBM считает Apache Spark самым важным открытым проектом ближайшего десятилетия, имеющим большое значение для развития мировых ИТ в целом. Он был начат в 2009 г. исследовательской группой под руководством Матей Захариа (Matei Zaharia) в лаборатории AMP (Algorithms, Machines, People) Калифорнийского университета в Беркли (США) и уже через год был представлен в виде открытого кода под лицензией BSD. В 2013 г. проект был передан под управление Apache Software Foundation и переведен под лицензию Apache 2.0. В феврале 2014-го Spark получил статус проекта Apache верхнего уровня. На конец 2014 г. Spark имел 465 контрибьюторов и стал наиболее активно развивающимся проектом как в рамках Apache Software Foundation, так и среди открытых проектов по тематике Big Data. По мнению аналитиков, поддержка со стороны IBM является признанием стратегической важности данного проекта и может стать решающим фактором в его продвижении на лидирующие позиции в ИТ-мире.

Эксперты рассматривают Apache Spark как качественно новый шаг в направлении создания мощных высоко масштабируемых вычислительных сред по обработке больших объемов данных, в том числе в режиме реального времени, который может существенно расширить возможности (или даже заменить собой) ведущую на сегодняшний день архитектуру Hadoop. В отличие от Hadoop, реализующего двухуровневую концепцию параллельных вычислений MapReduce с использованием дискового хранения данных, Spark выполняет базовые функции в оперативной памяти, получая в результате выигрыш по скорости обработки на два порядка. При этом механизм кэширования (многократного доступа к загруженным в память пользовательским данным) позволяется эффективно применять библиотеки Spark для реализации алгоритмов машинного обучения. На сегодняшний день функционал системы доступен в виде программных интерфейсов (API) для языков Java, Scala и Python.

Версия для печати