Сейчас, когда доступно так много вариантов хранения данных, очень важно понимать разницу между облачной миграцией неструктурированных данных и их многоуровневым распределением(тирингом данных, data tiering), пишет на портале The New Stack Кумар Госвами, генеральный директор компании Komprise.

Если спросить большинство ИТ-специалистов о том, как модернизировать систему хранения данных, они с большой долей вероятности упомянут облако. Облако уже много лет является ключевым компонентом ИТ-стратегий, и в будущем его значение будет только возрастать. Например, по прогнозам Gartner, к 2028 г. 75% рабочих нагрузок будет выполняться в облаке, а IDC прогнозирует ежегодный рост рынка облачных вычислений почти на 20% в течение следующих трех лет.

С точки зрения хранения неструктурированных данных переход в облако может принести значительные преимущества. Например, облачные хранилища можно бесконечно масштабировать. Облако также повышает доступность данных и позволяет организациям использовать преимущества широкого спектра нативных облачных сервисов, включая аналитику и искусственный интеллект.

Однако, несмотря на растущую популярность облачных технологий, просто взять и перенести все имеющиеся у вас файловые и объектные данные в стандартное облачное хранилище — не идеальный вариант. Поскольку сейчас доступно множество вариантов хранения, важно понимать разницу между миграцией неструктурированных данных и их распределением по уровням, а также изучить смешанный подход, применяемый для аналитики.

Сравнение облачной миграции данных с облачным тирингом данных

Облачная миграция данных означает перенос данных, которые в настоящее время хранятся локально, в облачную службу хранения (например, Elastic File Services от AWS или Azure Files от Microsoft), которая делает данные мгновенно доступными из облака. Такая миграция может быть связана с тем, что приходит время обновить хранилище, а также в рамках общей стратегии перехода к облачным технологиям.

Перенос данных в облако преследует как минимум две цели. Первая — это использование облачных файловых систем и запуск приложений в облаке. Это обеспечивает те же базовые уровни производительности и доступности данных, что и в локальной среде, но с дополнительным преимуществом — большей масштабируемостью, чем обычно предлагают локальные хранилища. Кроме того, предприятия, использующие облачные системы хранения, платят только за потребление, поэтому при последующем сокращении масштабов они не будут привязаны к инфраструктуре хранения, которую приобрели, но которая им больше не нужна. Другая цель — использовать облако в качестве автономного архива, используя недорогие объектные хранилища (такие как S3 Glacier и Glacier Instant Retrieval от Amazon).

В отличие от этого, многоуровневое облачное хранение данных — это процесс постоянной выгрузки старых, «холодных» данных, к которым не было доступа в течение нескольких месяцев, в облачные службы хранения. При облачном тиринге создается «онлайн-архив», в котором файлы выглядят так, как будто они размещены локально, и к ним можно получить доступ, просто дважды щелкнув по ним мышью. Архивные хранилища (такие как Glacier Instant Retrieval), стоят гораздо дешевле, чем стандартные хранилища (например, S3). При многоуровневом хранении старые данные постоянно перемещаются в облако, и это позволяет сократить объем дорогостоящего высокопроизводительного хранилища, необходимого для локального хранения, а также объем резервного хранилища, что снижает расходы на хранение данных на 70%.

Далее рассмотрим, как получить максимальную отдачу от любой выбранной стратегии.

Стратегия облачной миграции данных

Вот основные соображения:

  • Использование. Эта стратегия уместна при переносе локальных файловых серверов на облачные файловые серверы и автономных файловых архивов в облачные объектные хранилища. В последнем случае потребуется решение для миграции файлов в объекты.
  • Предварительная оценка данных. Чтобы определить, что следует перенести в облако, а что удалить или заархивировать, важно использовать аналитический подход. Это позволит сократить расходы на облако и время миграции, а также обеспечить выбор правильной стратегии для нужных наборов данных в нужное время.
  • Предварительная оценка среды и сети. Очень часто производительность миграции оказывается крайне низкой из-за узких мест в локальной инфраструктуре и соответствующих сетевых настроек. Некоторые решения для миграции предоставляют инструмент, который выполняет стандартные тесты для выявления узких мест в вашей среде. Это может значительно повысить успешность проекта миграции.
  • Производительность. Перенос в облако больших объемов данных, особенно множества маленьких файлов, может быть болезненно медленным из-за высоких задержек в глобальных сетях — особенно если миграция зависит от «болтливых» сетевых протоколов для передачи данных, таких как SMB. Ищите решения, разработанные для работы в глобальных сетях и позволяющие сократить время передачи файлов. Ограничения пропускной способности сети и перебои в ее работе также могут снизить производительность миграции данных, а некоторые атрибуты файлов или метаданные могут быть потеряны в процессе переноса данных из локальной среды в облако. Ищите решения, которые обеспечивают повторные попытки в случае проблем с сетью и выполняют проверку контрольной суммы, чтобы убедиться, что все биты каждого файла были переданы правильно.
  • Безопасность. При миграции данных по сети необходимо обеспечить шифрование данных при их передаче, чтобы предотвратить подслушивание. Кроме того, важно настроить надлежащий контроль доступа после того, как данные окажутся в облаке, чтобы предотвратить их утечку.

Вопросы облачного тиринга данных

Ниже перечислены ключевые аспекты многоуровневого распределения данных, которые могут повлиять на экономию расходов:

  • Тиринг на уровне блоков или файлов. Обычно поставщики систем хранения предоставляют тиринг на уровне блоков (block-level tiering). Это идеально подходит для системных данных, таких как моментальные снимки, но имеет недостатки при переносе обычных данных пользователей и приложений. Поскольку файлы хранятся в виде проприетарных блоков, к ним невозможно получить нативный доступ из облака. Для этого требуется купить у поставщика специальное ПО. Кроме того, при замене локальной файловой системы все данные, хранящиеся на ней, придется восстанавливать («регидратировать»). Вам нужно будет иметь достаточную емкость на существующем файловом сервере для хранения регидратированных данных, а затем перенести эти данные на новый файловый сервер. Затем нужно будет перенести холодные данные обратно в облако. Это может оказаться сложной задачей, если вы осуществляете тиринг петабайтов данных, и это будет дорого стоить из-за платы за вывод данных и стоимости облачного API.

    В отличие от этого, тиринг на уровне файлов (file-level tiering) позволяет обрабатывать весь файл, к которому можно получить нативный доступ из облака для использования в ИИ- и других облачных приложениях. Вместо регидратации, тиринг на уровне файлов, доступный в некоторых решениях для управления неструктурированными данными, позволяет получить доступ к тиризованным файлам с нового файлового сервера без необходимости повторной регидратации всех тиризованных данных. Это огромное преимущество, которое нельзя упускать из виду.
  • Прозрачность. Тиринг должен обеспечивать прозрачность, чтобы пользователи могли получать доступ к своим данным, просто дважды щелкнув на файле, который кажется файлом на локальном файловом сервере, но при этом реально находится в том месте, куда он был перемещен. Прозрачность позволяет ИТ-администраторам автоматически и постоянно изменять уровень холодных данных, не мешая пользователям и не заставляя их искать перемещенные данные. Из-за возможности поиска и доступа к файлам с исходного файлового сервера о прозрачном тиринге говорят как о создании «онлайн-архива».
  • Массовый отзыв. При необходимости решения для многоуровневого хранения должны позволять массово отзывать данные. Если необходимо пересмотреть проект, данные которого были распределены по уровням, вместо того чтобы восстанавливать файлы по мере необходимости, нужно иметь возможность заблаговременно отозвать все файлы для достижения наилучшей производительности.

Заключение

Миграция данных в облако — отличный вариант, если ваша цель — сократить объем локальных хранилищ, внедрить новые технологии хранения и увеличить инвестиции в более гибкие и доступные по требованию облачные хранилища. Многоуровневое хранение данных лучше в тех случаях, когда вы хотите снизить затраты на хранение и емкость для данных, к которым вы обращаетесь редко, но которые в будущем могут понадобиться на локальном уровне.