НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Грузовик флешек

Сергей Бобровский
24.02.2012 10:42:28

Развитие крупных облачных проектов приводит подчас к известной анекдотичной ситуации. Необходимость ежесуточного сбора миллионов записей из разных источников в единое хранилище Big Data и последующая поставка/синхронизация этих данных в подразделения требуют широкой и стабильной сети связи. В результате же в ряде проектов Big Clouds данные не перегоняются по сети, а передаются вручную на флешках и съемных дисках.

На сходных скоростях записи данных на жесткий диск и передачи их по сети начинают играть clouds-провайдеры, от стартапов до крупных корпораций. Так, Bitcasa запустила бета-версию сервиса виртуального жесткого диска (пока доступен только для компьютеров Apple, готовится Windows-версия).
За 10 долл/месяц пользователю предоставляется хранилище файлов неограниченного объема, этакий эмулятор, который выглядит как обычный диск в ПК или любом веб-устройстве, причем скорость записи/считывания не слишком отличается от реальной "железки" -- компания обязуется поддерживать к нему мультимегабитный доступ. Обещаны автоматические бэкапы, синхронизация и т. д.
Имеется и бесплатная версия, которая по объему "less than unlimited".

Схожий сервис Drive анонсировал и Google -- он будет "преимущественно бесплатен".

Bitcasa предоставляет пользователям конечную услугу, а как они реализуются изнутри? Пока, судя по всему, заметных альтернатив движку Hadoop не предвидится. В мире Big Data он монополист, и эта роль только усиливается третьими фирмами, которые успешно дополняют эту весьма суровую и аскетичную опенсорсную платформу инструментами с удобным графическим интерфейсом (как правило, тоже свободными и бесплатными!), и платным суппортом.

Например, компания Pentaho -- хороший пример международного бизнеса на СПО. Их Big Data-пакет Pentaho Kettle выпущен под лицензией Apache. В него входят визуальные инструменты, которые, по словам авторов, в 10 раз ускоряют разработку Hadoop-приложений (и скорее всего так и есть), обеспечивают визуальную оркестровку сервисов и еще много чего другого. Не сочтите за рекламу, уж очень Pentaho Kettle впечатляющ:
- поддерживаются все ключевые Hadoop-дистрибутивы Amazon Elastic MapReduce, Apache Hadoop, Cloudera CDH/Enterprise, EMC Greenplum HD, HortonWorks Data Platform, MapR M3 Free/M5;
- технологии Amazon Elastic MapReduce/Pentaho MapReduce;
- NoSQL-хранилища Cassandra, Hadoop HDFS, Hadapt, HBase, Hive, HPCC, MongoDB;
- интеграция с HP NonStop SQL/MX, HP Vertica, IBM Netezza, Infobright, Ingres Vectorwise, LucidDB, MonetDB и Teradata;
- OLTP и распараллеленный OLAP.

Но и средств на создание подобные платформы конечно требуют внушительных. Недаром в конце 2011-го был сформирован Big Data Fund, в который инвесторы вложили 100 млн долл.

Комментариев: 0

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии