Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Облака/ИТ-сервисы: Статьи Новости компаний Решения

Панорама

Сергей Кузнецов о техническом долге в критических системах: «Никто не планировал 3,5 миллиона записей — именно так и возникает технический долг»

Инженер-программист рассказывает о том, почему накопленные «кодовые упрощения» становятся серьезной угрозой для приложений …

«ТОП-40 диджитал-экспертов»: время «гибридных» ИТ-директоров

Ежегодный рейтинг лидеров цифровой отрасли зафиксировал эволюцию ролей CIO и CTO в российских компаниях. Обнародован …

National Business Award наградила за поиск

Недавно в Москве состоялась церемония награждения престижной премии National Business Award, которая отмечает достижения …

Облачная защита от DDoS: альтернатива возможна, но в редких случаях

DDoS-атаки развиваются не по принципу замены старых методов новыми, а по принципу накопления. Техники …

Состояние и перспективы развития российских систем управления идентификацией и доступом. Часть 1

Российский рынок систем управления идентификацией и доступом (IAM) объектов и субъектов к корпоративным …

Google Cloud Dataflow теперь доступна в Apache Flink

Джайкумар Виджаян | 26.03.2015

Разработчики, использующие Google Cloud Dataflow для создания конвейеров потоков данных, которые сочетают в себе задания на пакетную и потоковую обработку данных, получили возможность исполнения своих заданий на новом движке распределенной обработки Apache Flink.

Базирующаяся в Берлине компания Data Artisans, производитель дистрибутива Flink, выпустила для него модуль исполнения Cloud Dataflow. Этот модуль обеспечивает исполнение любой программы Dataflow на кластере Flink, размещенном в облаке или установленном локально.

Flink — это новый проект Apache Software Foundation по созданию движка распределенного исполнения приложений пакетной и потоковой обработки данных. Data Artisans характеризует Flink как альтернативу механизму MapReduce, который способен работать полностью независимо от экосистемы Hadoop.

Google Cloud Dataflow представляет собой программную модель для комбинирования задач по пакетной и потоковой обработке больших наборов данных. Технология создана для компаний, желающих извлечь ценную для бизнеса информацию как из данных в долговременных хранилищах (пакетная обработка), так и данных, передаваемых по сети (потоковая обработка). Некоторые сценарии использования потокового анализа предусматривают такие операции в реальном времени, как визуализацию данных, сигналы о событиях, мониторинг безопасности. Flink стала третьей по счету платформой, поддерживающей Dataflow.

Технология Cloud Dataflow появилась изначально как сервис на платформе Google Cloud Platform. Затем в декабре Google выпустила Cloud Dataflow Software Development Kit (SDK) для разработчиков, желающих перенести свои программы на другие процессные движки. И в январе Google и Cloudera анонсировали поддержку Dataflow на популярной платформе Apache Spark, которую разрабатывает Cloudera.

В своем блоге Data Artisans сообщает, что новый модуль позволит пользователям Dataflow упростить применение Apache Flink в качестве средства исполнения своих программ. Как утверждается в опубликованном посте, Flink и Cloud Dataflow хорошо подходят друг другу, поскольку обе технологии основаны на унификации процессов пакетной и потоковой обработки данных, утверждается в опубликованном посте. Применение Flink расширяет для пользователей число возможных вариантов по организации гибридной пакетно-потоковой аналитики как в облаке, так и в локальном ЦОДе.

Согласно сообщению Data Artisans, новый модуль Flink сейчас поддерживает полный функционал пакетной обработки Dataflow. Команда в данный момент работает над реализацией поддержки потоковой аналитики, но конкретных сроков не называет.

В размещенном в блоге анонсе новой разработки старший менеджер продуктов Google Вильям Вамбенепе утверждает, что модуль Flink повышает переносимость и производительность конвейеров Dataflow. «[Flink] предоставляет мощный исполнительный механизм, снабженный оптимизатором и системой управления памятью, — сообщил Вамбенепе. — Но главное в том, что вы получаете гарантированную возможность портирования ваших Dataflow-конвейеров с Google Cloud Dataflow на другую платформу.»

Аналитики из Forrester прогнозируют рост спроса на сервисы и технологии потоковой аналитики по мере того, как все больше организаций пытаются извлечь бизнес-пользу из огромных объемов данных, генерируемых в результате выполнения транзакций, Web-перемещений, использования мобильных приложений и облачных сервисов.

Главные конкуренты Google, Amazon и Microsoft, имеют в своем арсенале сервисы потоковой обработки данных в реальном времени, сходные с Dataflow. Amazon нахваливает свою технологию Kinesis за предоставляемую ею возможность анализировать терабайты данных в час. Microsoft создала свой механизм обработки событий Stream Analytics для тех же задач — помогать компаниям в реальном времени получать важнейшие выводы из потоков данных, генерируемых приложениями, устройствами и датчиками.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Google Cloud Dataflow теперь доступна в Apache Flink

Комментарии