Фонд Apache Software Foundation (ASF) анонсировал выход новой версии популярной открытой программы для распределённой обработки больших массивов данных Hadoop. Это ПО использует парадигму MapReduce, согласно которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Версия Hadoop 2.0 позволяет одновременно работать со множеством приложений на серверах и имеет встроенные механизмы для быстрого и эффективного развертывания массивов данных на высоких скоростях.
Последняя версия платформы была в разработке около четырех лет и имеет несколько совершенно новых компонентов. Самый заметный из них — это YARN (Yet Another Resource Negotiator), представляющий собой дальнейшее развитие системы Hadoop MapReduce. Новая версия имеет ряд отличий, в частности, она работает в оперативной памяти сервера и управляется двумя подсистемами, одна из которых предназначается для планирования и отслеживания выполнения заданий (JobTracker), другая — для общего мониторинга системы. Ключевые компоненты YARN: ResourceManager (RM, управляет распределением всех ресурсов системы для всех приложений), NodeManager (координирует работу каждого узла) и ApplicationMaster (AM, запускается для каждого приложения и обеспечивает выполнение заданий с использованием полученных от ResourceManager ресурсов).
Технически, YARN основывается на HDFS (Hadoop Distributed File System) и работает как крупномасштабная, распределенная файловая система для больших данных. По заверению разработчиков, Hadoop и YARN предоставляют пользователям возможность работать в реальном времени с большими нагрузками и в целом повышают стабильность платформы при работе с огромными массивами данных. Одновременно с YARN Apache выпускает и MapReduce 2.0, который на уровне API совместим с прежней версией продукта. Для упрощения доступа к данным в Hadoop-хранилище разработана СУБД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.
Проект оценивается как полностью стабильный и готовый для промышленной эксплуатации. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с технологией MapReduce.
Hadoop 2.0 также получила повышенную производительность HDFS и средства для объединения разных экземпляров HDFS (Federation HDFS); возможность создания снэпшотов данных в HDFS и поддержку доступа к HDFS через NFSv3. Новая версия Hadoop обеспечивает бинарную совместимость с существующими приложениями MapReduce, созданными для Apache Hadoop 1.0, а также поддерживает платформу Windows.
Систему Hadoop активно используют многие крупные компании, в том числе Amazon, AOL, Apple, Ebay, Facebook, Netflix, Hewlett-Packard и другие. Hadoop лежит в основе платформы Oracle Big Data и некоторых продуктов Microsoft, IBM, Teradata и SAP.