Google вновь стремится добиться благосклонности облачных разработчиков, выпустив набор инструментов разработки с открытым кодом для Java на основе своего довольно нового сервиса Cloud Dataflow.
Cloud Dataflow был впервые представлен на проходившей летом ежегодной конференции I/O Developer Summit. Это аналитическое решение для больших данных, предназначенное для обработки информационных потоков или пакетов. В дальнейшем в связи с подготовкой модели управляемого сервиса Google для обработки данных была выпущена альфа-версия этого решения.
Старший вице-президент подразделения Google Cloud Platform Урс Хёльцле отметил в то время, что Dataflow заменяет MapReduce при внутреннем использовании в Google в качестве подхода к анализу потоков с «произвольно большими наборами данных». Кроме того, Cloud Dataflow заполняет большое пустовавшее пространство в быстро развивающемся и растущем наборе облачных инструментов интернет-гиганта, который продолжает конкурировать с Amazon Web Services. Если говорить более конкретно, Google Cloud Dataflow нацелен против сервиса хранилищ данных AWS Redshift, а также такого инструмента Hadoop как AWS Elastic MapReduce.
Инженер-программист Google Сэм Маквити написал в блоге, что SDK с открытым исходным кодом должен упростить разработчикам интеграцию с управляемым сервисом Google, чтобы можно было переносить Cloud Dataflow на другие языки программирования и в другие среды разработки.
«Ценность данных выявляется при анализе и получении на его основе информации, — писал Маквити. — Преобразование данных в информацию может быть очень непростым, когда наборы данных становятся большими и разбросанными по различным системам хранения. Добавьте к этому растущий спрос на аналитику в реальном времени — и трудности извлечения пользы из наборов данных превращаются в колоссальную проблему для разработчиков».
Google Dataflow SDK for Java уже доступен на сайте GitHub.