Одним из свидетельств внимания ведущих софтверных вендоров к технологиям Big Data, является массовый выпуск ими собственных коннекторов к распределенной среде Hadoop, а в некоторых случаях и собственных дистрибутивов Hadoop. В 2011 г. подобный дистрибутив под названием Greenplum Hadoop представила и компания EMC. В него, как и во многие другие аналогичные комплекты были включены такие открытые разработки фонда Apache, как HDFS, MapReduce, Pig, Hive и Mahout, которые были дополнены собственными решениями по управлению (Command Center), виртуализации (на базе ПО VMware Hadoop Virtualization Extensions), поддержке нескольких Hadoop-кластеров (Installation/Configuration/Management, ICM), а также инструментарий Java-разработки Spring Hadoop. И вот в конце февраля EMC объявила о выпуске не очередной версии, а совершенно нового дистрибутива Pivotal HD.

Разумеется все упомянутые выше компоненты, получив определенное развитие, в нем сохранились. Как пишет в своем блоге архитектор решений подразделения EMC Greenplum Дональд Майнер, отличительной чертой нового пакета является то, что он не просто улучшает функциональность, а принципиально расширяет возможности Hadoop как платформы для обработки больших данных. Произошло это благодаря включению в дистрибутив новой разработки EMC — полнофункциональной высокопроизводительной реляционной СУБД HAWQ, способной обращаться к распределенной файловой системе HDFS посредством стандартных SQL-запросов. Для этого применяется собственный (отличный от MapReduce) движок, базирующийся на MPP-технологиях известной СУБД Greenplum Database, в которой, как объясняет Дональд Майнер, вместо старых процедур чтения/записи на диск используются новые, учитывающие специфику HDFS. Инструментарий GPXF (Greenplum Extension Framework) обеспечивает доступ к Hadoop не только HAWQ, но и другим популярным открытым продуктам, таким как нереляционная СУБД HBase и аналитическое хранилище данных Apache Hive.

Представители EMC заявили, что выпуск нового дистрибутива был продиктован тем, что существующие SQL-интерфейсы к Hadoop работают крайне медленно. Внутреннее тестирование производительности продемонстрировало превосходство HAWQ над ними (Hive и Cloudera Impala) в десятки, а иногда и в сотни раз (от 10 до 600). Как утверждает Дональд Майнер, в рамках Pivotal HD удалось реализовать аналитическую SQL СУБД реального времени, способной с секундными задержками обрабатывать запросы к большим данным, находящимся под управлением Hadoop.