В связи с ростом объемов данных и расширением списка требований регулирующих органов ИТ-подразделениям приходится сегодня заключать все более строгие соглашения об уровне обслуживания и при этом управлять затратами. Дедубликация устраняет избыточность данных, помогая ИТ-подразделениям совершенствовать управление информацией, упрощая восстановление после катастроф и снижая затраты на хранение. В данной статье показано, как реализовать успешную стратегию дедубликации данных в организации.

Сегодня ИТ-подразделения уже не могут полагаться на применявшуюся в прошлом году модель защиты данных, которую можно охарактеризовать как основанную на использовании магнитных лент, децентрализованную и связанную с использованием главным образом физических серверов. Виртуализация и большие объемы данных, которые нужно оберегать, диктуют новый подход к обеспечению безопасности информации и управлению ею.

В наши дни объем данных ежегодно возрастает на 50%. Как организации могут защитить свои данные, если отводимое на резервное копирование время постоянно сокращается? Сколько времени потребуется на восстановление виртуальных машин или сложных приложений, таких как SharePoint? И какое количество данных могут себе позволить потерять компании в случае аварии?

Если средства нового поколения вроде дисковых систем резервного копирования революционизируют защиту данных, то дедубликация открывает новую эру в управлении информацией. Сейчас, когда появилась возможность производить дедубликацию где угодно и управлять ею централизованно, организации могут не только повысить защищенность данных и сократить затраты, но и вырабатывать более систематический подход к управлению ростом информации.

Почему дедубликация?

Дедубликация, попросту говоря, представляет собой устранение избыточности данных. При дедубликации сохраняются не файлы, а только уникальные данные. Нет необходимости говорить, что в тех вычислительных средах, где требуется дальнейшая интенсификация хранения, а снижение расходов остается важнейшей проблемой, дедубликация становится сегодня остро необходимым подспорьем для ИТ-подразделений.

Если вы знакомы с дедубликацией, то вас не удивит, что сокращение избыточности данных позволяет компаниям снизить затраты на их хранение. Однако многие не подозревают, что дедубликация (в зависимости от того, где и как она применяется) дает и другие преимущества вроде экономии полосы пропускания, ускорения резервного копирования и его консолидации, упрощения восстановления после катастроф.

Ощутимый выигрыш в результате дедубликации

Ознакомившись во всеми способами и сферами применения, где дедубликация способна сыграть позитивную роль, ИТ-подразделение может принять правильное решение, с чего следует начать применение этой мощной технологии. Известен целый ряд связанных с дедубликацией преимуществ, в том числе следующие:

  1. Перенос хранящихся на виртуальных машинах данных может снизиться на величину до 90%.
  2. Сокращение объема резервных копий на 95%.
  3. Минимизация отводимого на резервное копирование времени и снижение нагрузки на сеть на 90%.
  4. Уменьшение расходов на магнитные ленты на 80% и устранение необходимости в затратах на виртуальные ленточные библиотеки.

Дедубликация может осуществляться либо у источника данных, либо в пункте назначения. Если производить ее как можно ближе к источнику информации, то она дает наибольший эффект, затрагивающий значительную часть многих вычислительных сред. Конечно, все они имеют свои особенности. Решение о дедубликации должно приниматься с учетом характера данных, их объема и, разумеется, конкретного соглашения об уровне обслуживания при восстановлении данных.

Дедубликация у источника данных

При дедубликации у источника (или на стороне клиента, как часто говорят) данная операция производится до того, как данные будут переданы по сети и загружены в систему хранения. Устраняя избыточность данных, прежде чем они попадут в сеть, дедубликация у источника повышает эффективность использования полосы пропускания, системы хранения и виртуальных машин, что отражается на всей инфраструктуре.

Вероятно, многие организации могли бы применить дедубликацию на стороне клиента, охватив 60—80% своих данных. В результате ускорится резервное копирование, резко сократится нагрузка на сеть и уменьшится объем хранения.

Некоторые решения для дедубликации данных на стороне клиента применимы как для виртуальных, так и для физических сред. Независимо от того, идет ли речь о виртуальной, или о физической машине, на ней будет храниться меньше данных. Это не только сократит затраты на хранение в ЦОДе, но и упростит перемещение (репликацию) данных на резервную площадку с целью восстановления после катастроф.

Дедубликация в пункте назначения

Дедубликация данных может происходить и в конечной точке их маршрута — на медиасервере или устройстве хранения. При дедубликации на медиасервере данные пересылаются с клиентской машины (защищаемой системы) на сервер, где установлено ПО для резервного копирования (медиасервер). Тот производит дедубликацию и передает в систему хранения только уникальные данные. Это экономит ресурсы хранения, а также снижает потребности в инфраструктуре для хранения резервных копий.

Дедубликация с использованием медиасервера очень хорошо подходит в таких случаях, как создание резервных копий виртуальных машин для хранения на специализированных устройствах и резервное копирование с помощью протокола Network Data Management Protocol (NDMP), а также применение СУБД в ЦОДах для обработки большого количества транзакций, поскольку в подобных базах данные быстро изменяются.

Дедубликация на устройстве хранения, как и на медиасервере, относится к операциям в конечной точке. Если используется дисковое устройство, то резервные копии перемещаются по сети от клиента к серверу резервного копирования, а затем на устройство хранения. Последнее осуществляет дедубликацию и направляет уникальные данные в долговременную память. В результате сокращается объем резервных копий.

Хотя большинство программных продуктов для резервного копирования воспринимают подобные устройства в качестве дисков, некоторые производители стали предлагать решения, предусматривающие более тесную интеграцию ПО с устройствами хранения. Такой уровень интеграции позволяет организациям еще больше повысить производительность резервного копирования и получить дополнительную экономию от использования подобных устройств. Например, тесная интеграция может привести к более эффективному применению репликации данных, повысить скорость их восстановления после катастроф или облегчить данную операцию благодаря более полному учету особенностей ленточных устройств хранения.

Дальнейшие шаги к разработке стратегии дедубликации

Понятно, что дедубликация является экономически эффективным инструментом управления информацией, который организации могут использовать практически повсеместно для решения острых проблем в области ИТ. Удаленные офисы, виртуальные машины или ЦОДы — дедубликация везде может сыграть определенную роль в снижении расходов на хранение, повышении надежности и упрощении операций. Чтобы правильно расставить приоритеты, задайтесь следующими вопросами:

  1. Какой процент передаваемых по сети данных подлежит резервному копированию?
  2. Удовлетворяет ли вас время, необходимое для создания резервных копий или восстановления виртуальных машин?
  3. Нет ли у вас устройств хранения, которые можно было бы выделить для дедубликации резервных копий?
  4. На сколько сократятся затраты, если отказаться от 50% магнитных лент?

В широком плане дедубликация помогает организациям соблюдать все более строгие условия соглашений об уровне обслуживания, вступающих в силу в периоды, отводимые на резервное копирование, добиваться заданных показателей, касающихся времени на восстановление с резервных копий (recovery time objective, RTO) и точек восстановления (recovery point objective, RPO). Но помните, что дедубликация дает организациям выигрыш в самых различных ситуациях. Если она применяется на клиентских системах, то сокращает время создания резервных копий физических и виртуальных машин, а также снижает требования к полосе пропускания. В конечной точке она, разумеется, тоже дает сходные преимущества для системы хранения и, возможно, позволит обойтись без модернизации имеющего ПО для создания резервных копий клиентских систем.

Наконец, на рынке имеются решения, представляющие собой комбинацию дедубликации у источника данных и в конечном пункте. Они позволяют добиться более существенной экономии затрат на хранение и дают повышенный экономический эффект. Ищите такое решение, которое наилучшим образом соответствует вашим условиям. Вскоре вы увидите, что дедубликация — уже не роскошь, а непременный атрибут ЦОДа.