Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Как строится надёжность цифровых систем: инженер Костадин Алмишев и его стратегия создания предсказуемых сервисов

В современной финансовой индустрии существует интересный парадокс: чем сложнее становятся технологии внутри банка или …

Как консалтинг помогает российскому бизнесу осваивать ИИ

Многие компании, внедряющие искусственный интеллект, не получают от него ожидаемой отдачи. Этот вызов стал стимулом для …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

UEM: от «инвентаризации телефонов» к интеллектуальному управлению мобильным миром

Ещё 5–7 лет назад UEM/MDM воспринимался в корпоративной ИТ-службе примерно как учёт парты в школьном классе: «есть/нет …

Четыре аргумента в пользу совместной работы Hadoop и Spark

Игорь Новиков | 16.03.2016

Эффективное использование больших данных требует правильного подбора инструментов для их хранения, обслуживания, обработки и анализа. Hadoop и Spark рассматривались до сих пор как альтернативные системы. Однако в последнее время все чаще говорят о том, что наилучший результат дает их совместное использование.

В чем отличия этих систем и как достигается компромисс в блоге Syncsort рассказала Кристи Уилсон.

1. Модель распределенного хранения данных, предлагаемая Hadoop, дополняется средствами обработки данных в памяти, предлагаемыми через Spark

В Hadoop применяется собственная распределенная файловая система HDFS. Она позволяет выполнять обширные вычисления по коллекции данных, которые собираются с нескольких узлов, входящих в отдельный кластер серверов. Такая архитектура устраняет необходимость использования избыточного оборудования. Более того, Hadoop выполняет индексацию и слежение за перемещением данных, что позволяет вести обработку и анализ больших коллекций рационально и эффективно.

Модель работы Spark выстроена иначе. Вместо поиска решений для эффективного обслуживания распределенных хранилищ данных, этот проект достигает преимущества за счет рационализации процесса их обработки.

Разница в идеологии работы Hadoop и Spark позволяет добиваться роста эффективности именно благодаря их совместной работе. Общая модель может рассматриваться как некая большая система управления данными, сочетающая достоинства распределенной файловой системы Hadoop и многослойной архитектуры обработки данных в памяти Spark.

2. Если Hadoop и Spark работают совместно, то они также могут работать и раздельно

Для управления распределенным хранилищем данных Hadoop использует системный механизм, получивший название Hadoop Distributed File System (HDFS). Однако помимо файловой системы он может подключать систему MapReduce для выполнения параллельных вычислений над большими объемами данных. При такой конфигурации Hadoop может обходиться без Spark, причем это решение уже давно и активно используется в самых разных инфраструктурных системах.

Spark также может работать с другими файловыми системами, помимо тех, что предлагает Hadoop.

Как показал накопленный опыт, MapReduce оказался достаточно сложным для программного управления. На его фоне Spark выглядит значительно проще, а скорость выполнения операций в нем значительно выше.

3. Spark работает значительно быстрей, чем MapReduce

Главным аргументом при подключении Spark служит его сравнение с MapReduce. Поскольку речь идет о больших данных, то наиболее значительный выигрыш Spark в скорости выполнения операций демонстрирует при работе с потоковыми данными.

Однако достоинства Spark не ограничиваются только скоростью. Этот механизм способен выполнять анализ, принимая во внимание всю совокупность накопленных больших данных. На его фоне возможности MapReduce выглядят более ограниченными. Одномоментно он может делать выборку только из данных, принадлежащих одному кластеру. После этого MapReduce выполняет намеченную операцию обработки, записывает результат на диск, оставляя его для последующего использования уже в рамках итоговой системной обработки. Скорость выполнения операций при такой модели выборки в MapReduce получается значительно ниже, чем у Spark.

4. Hadoop и Spark умеют эффективно бороться с системными ошибками

Hadoop и Spark используют встроенные механизмы для сохранения устойчивой работы в случае появления сбоев. Однако подходы у них разные.

Модель Hadoop предусматривает перенос данных на диск сразу после завершения любой операции. Именно благодаря этому его работа остается устойчивой даже при возникновении аппаратных сбоев или программных ошибок.

В Spark используется иная модель защиты. Она выстроена вокруг работы с объектами данных, которые размещаются внутри Resilient Distributed Dataset (устойчивые распределенные наборы данных). Эти объекты представляют собой неизменяемые коллекции данных, которые размещаются в кластерах и допускают взаимное преобразование с помощью групповых операций, например, путем map-отображений. Сами данные могут размещаться как в памяти, так и на диске. При этом Spark поддерживает историю всех выполненных преобразований, что позволяет ему пересоздать объект данных, если обнаруживается сбой в работе.

При работе Hadoop и Spark по отдельности каждый из них может использовать только свои встроенные средства защиты. Совместная работа позволяет получить защищенное комплексное инфраструктурное решение.

Печать

	События
	Как внедрение RAIDIX решает задачи бизнеса: опыт Тринити Интеграция 9 апреля 2026 г. (четверг), 11:00 — 12:30, онлайн «Про ИБ без воды 2026: практика от практиков» 22 апреля 2026 г. (среда), 10:00 — 18:00, Москва

Статьи по теме

Оптимизация ЦОДа: где реально можно сэкономить, а где экономия обернется потерями

На практике заявленная мощность и реальная потребность в проекте ЦОДа через три года отличаются в 1,5-2 раза …

Цифровой иммунитет серверной: как малая автоматизация предотвращает большие простои

Невидимые инциденты в необслуживаемых узлах В распределённых компаниях серверные шкафы часто располагаются …

Бум ИИ настиг CPU, которые снова стали “модными”

Видеокарты и микросхемы NAND — не единственные компоненты вычислительной техники, которые сейчас продаются как …

Подготовка корпоративных дата-центров к внедрению ИИ

Предприятия, внедряющие искусственный интеллект, сталкиваются с проблемами, отличными от проблем пользователей …

Станет ли 2026-й годом реструктуризации дата-центров?

Независимо от желания ИТ-отдела, центры обработки данных сами себя реструктурируют. CIO должны переосмыслить подход …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Четыре аргумента в пользу совместной работы Hadoop и Spark

1. Модель распределенного хранения данных, предлагаемая Hadoop, дополняется средствами обработки данных в памяти, предлагаемыми через Spark

2. Если Hadoop и Spark работают совместно, то они также могут работать и раздельно

3. Spark работает значительно быстрей, чем MapReduce

4. Hadoop и Spark умеют эффективно бороться с системными ошибками

Комментарии