Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Цифровой иммунитет серверной: как малая автоматизация предотвращает большие простои

Невидимые инциденты в необслуживаемых узлах В распределённых компаниях серверные шкафы часто располагаются …

«ТОП-40 диджитал-экспертов»: время «гибридных» ИТ-директоров

Ежегодный рейтинг лидеров цифровой отрасли зафиксировал эволюцию ролей CIO и CTO в российских компаниях. Обнародован …

Сергей Кузнецов о техническом долге в критических системах: «Никто не планировал 3,5 миллиона записей — именно так и возникает технический долг»

Инженер-программист рассказывает о том, почему накопленные «кодовые упрощения» становятся серьезной угрозой для приложений …

Состояние и перспективы развития российских систем управления идентификацией и доступом. Часть 1

Российский рынок систем управления идентификацией и доступом (IAM) объектов и субъектов к корпоративным …

«Стратегический альянс „Группы Астра“ и „Аладдин“ задаёт новый подход к созданию ИТ-инфраструктуры в России»

На днях «Группа Астра» и «Аладдин» объявили о стратегическом партнёрстве. По заявлению компаний, оно …

HAWQ претендует на роль СУБД реального времени для Hadoop

PC Week/RE №5 (825) 5 марта 2013

Сергей Свинарев | 28.02.2013

Одним из свидетельств внимания ведущих софтверных вендоров к технологиям Big Data, является массовый выпуск ими собственных коннекторов к распределенной среде Hadoop, а в некоторых случаях и собственных дистрибутивов Hadoop. В 2011 г. подобный дистрибутив под названием Greenplum Hadoop представила и компания EMC. В него, как и во многие другие аналогичные комплекты были включены такие открытые разработки фонда Apache, как HDFS, MapReduce, Pig, Hive и Mahout, которые были дополнены собственными решениями по управлению (Command Center), виртуализации (на базе ПО VMware Hadoop Virtualization Extensions), поддержке нескольких Hadoop-кластеров (Installation/Configuration/Management, ICM), а также инструментарий Java-разработки Spring Hadoop. И вот в конце февраля EMC объявила о выпуске не очередной версии, а совершенно нового дистрибутива Pivotal HD.

Разумеется все упомянутые выше компоненты, получив определенное развитие, в нем сохранились. Как пишет в своем блоге архитектор решений подразделения EMC Greenplum Дональд Майнер, отличительной чертой нового пакета является то, что он не просто улучшает функциональность, а принципиально расширяет возможности Hadoop как платформы для обработки больших данных. Произошло это благодаря включению в дистрибутив новой разработки EMC — полнофункциональной высокопроизводительной реляционной СУБД HAWQ, способной обращаться к распределенной файловой системе HDFS посредством стандартных SQL-запросов. Для этого применяется собственный (отличный от MapReduce) движок, базирующийся на MPP-технологиях известной СУБД Greenplum Database, в которой, как объясняет Дональд Майнер, вместо старых процедур чтения/записи на диск используются новые, учитывающие специфику HDFS. Инструментарий GPXF (Greenplum Extension Framework) обеспечивает доступ к Hadoop не только HAWQ, но и другим популярным открытым продуктам, таким как нереляционная СУБД HBase и аналитическое хранилище данных Apache Hive.

Представители EMC заявили, что выпуск нового дистрибутива был продиктован тем, что существующие SQL-интерфейсы к Hadoop работают крайне медленно. Внутреннее тестирование производительности продемонстрировало превосходство HAWQ над ними (Hive и Cloudera Impala) в десятки, а иногда и в сотни раз (от 10 до 600). Как утверждает Дональд Майнер, в рамках Pivotal HD удалось реализовать аналитическую SQL СУБД реального времени, способной с секундными задержками обрабатывать запросы к большим данным, находящимся под управлением Hadoop.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

HAWQ претендует на роль СУБД реального времени для Hadoop

Комментарии