НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Ищем альтернативу Hadoop

На рынке Big Data ($53 млрд к 2017-му) система Hadoop стала уже нарицательной, в нее входят и монитор транзакций, и файловая система, и распределенное хранилище данных, и язык программирования. Рынок Hadoop-MapReduce, сообщила в мае IDC, вырастет с 77 млн долл в прошедшем году до 812 млн к 2016-му. И на июньский форум Hadoop Summit 2012 спонсоры подобрались один именитее другого: Amazon, Cisco, Dell, Facebook, IBM, Intel, Microsoft, Yahoo, VMware, а профильные фирмочки раскуплены на корню. Так, рынок поставщиков Enterprise Search, независимых от Больших денег, практически опустел. И даже IBM пошла на поклон к Cloudera, выпускающей коммерческий Hadoop¬-дистрибутив, дабы сынтегрировать с ней свою версию, BigInsights.

[spoiler]Но главный элемент Hadoop, ее живой движок -- это все же NoSQL-СУБД HBase, склонированная с Google BigTable. Facebook использует ее для перемалывания десятков тысяч терабайтов, а Gartner откровенно рекомендует связку HBase + HDFS. Она удовлетворяет не только ACID-требованиям самого высокого уровня для коммерческих РСУБД, но и уровню variety, velocity, volume, complexity, до которого реляционные системы не дотягивают. Интересная статья о переходе NextBio с MySQL (БД 100 Тб, 30 млрд. записей) на HBase.

Главный минус Hadoop -- ее безальтернативность (по крайней мере, такое складывается впечатление, если гуглить соответствующие темы в мэйнстримовских источниках), и даже факт, что развивается она фондом Apache, в порядочности которого нет ни малейших сомнений, не слишком эту безальтернативность компенсирует. Понятно, что даже если вдруг завтра проект Hadoop "закроется", нынешних наработок хватит на ближайшие 5-7 лет точно. Но на практике этот минус выливается в традиционные для многих свободных проектов высокую трудоемкость настройки, конфигурирования, "допиливания" Hadoop под конкретные нужды.

Реалии же нынешних ИТ-проектов таковы, что заказчику гораздо проще заплатить за быстрое внедрение и дополнительное железо, дабы развернуть на них классическую РСУБД с нуль-администрированием, удобным инсталлятором, подробным руководством и кучей дополнительного графического инструментария, а также без проблем найти для нее специалистов, нежели мучиться с настройками Hadoop. Это, собственно, всё отголоски холивара по поводу СПО и кривых рук.

Перед ставкой именно на Hadoop как минимум имеет смысл ознакомиться с существующими альтернативами, среди которых есть и гораздо более простые в установке и эксплуатации. Я поискал общедоступные (во всех смыслах, включая и юридический аспект) реализации запатентованной гуглевской технологии MapReduce, и отобрал из найденных только те, которые, во-первых, регулярно обновляются, а во-вторых, создаются достаточно авторитетными коллективами, а не на коленке (следующий пост).
Татьяна Лякишева
Сергей, добрый день
С большим интересом читаю Ваши посты по Большим данным
Насколько я понимаю, затея с новыми технологиями для хранения и обработки доселе хоронимых видов данных имеет смысл, если на них есть квалифицированный потребитель, то что называют data analyst или data scientist. А где их брать, где можно обучить, и как скоро они у нас появятся в достаточном количестве? Я знаю только ШАД при Яндексе, это обучение студентов-математиков-программистов, с акцентом на задачи интернет-компаний. А если брать госсектор и выполняющих в нем проекты интеграторов? Это большая часть рынка. Как, с Вашей точки зрения, будет развиваться тема big data в этом секторе, и откуда появятся в нем эти самые data analysts?
Сергей Бобровский
Как только заметный спрос на рынке проявится, думаю, всевозможные учебные центры быстро соответствующие курсы организуют; в принципе, на основе уже существующих курсов по базам данных и BI несложно и направление Big Data развить.