Выбор подходящей инфраструктуры данных может оказаться сложной задачей, поэтому все больше организаций обращаются к облачным партнерам, пишет на портале ITPro Today Павел Васильев, технический директор ClearScale.

В какой-то момент мы начали говорить о данных в более широком контексте «больших данных». Но теперь мы снова называем их просто «данные». Мы генерируем данные со скоростью взрыва. Фактически, по некоторым прогнозам, 44 Зб, которые мы имели в мире в 2020 г., вырастут аж до 175 Зб в 2025-м.

Это явный признак того, что обработка, сбор и хранение данных сейчас важнее, чем когда-либо прежде. По мере того, как предприятия переходят к работе с данными и увеличивается присутствие BI, ИИ и MО, эта важность только растет. Если учесть множество вариантов хранения данных, то нет причин оставаться в стороне!

Но при резко возросшей потребности в данных в сочетании с этим изобилием вариантов, как выбрать наилучшую комбинацию для хранения данных? Есть три суперсилы, которые, подобно Вольтрону, определяют общий ландшафт данных:

  • Инфраструктура данных определяет, как все это будет работать.
  • Конвейеры данных используются для перемещения данных (например, сбор, ETL, обмен).
  • Управление данными определяет, как создавать, хранить, защищать и получать доступ к данным.

Что такое инфраструктура данных

Ваша стандартная ИТ-инфраструктура состоит из таких элементов, как компьютеры, сети и подключенные устройства. Они могут быть физическими, виртуальными или и теми, и другими. Если данные неудобны для доступа или потребления, их использование, несомненно, будет сокращаться. Если данные дорого хранить или извлекать, не обеспечивая равной или большей ценности, то это уже нерентабельно. Именно эти проблемы решает современная инфраструктура данных. Хранить данные — это одно, но хранить их оптимально — вот где настоящий сыр-бор.

Вы можете быстро запутаться в имеющихся вариантах. MySQL, PostgreSQL, CouchDB, MariaDB, CockroachDB... вы серьезно? Да! К счастью для всех (в первую очередь я обращаюсь к вам, команда администраторов СУБД), существует здоровая смесь вариантов хостинга для поддержки этого рога изобилия вариантов.

Вы можете управлять собственной БД, например, установить MS-SQL на виртуальные экземпляры. Вы можете использовать управляемую БД, когда поставщик облачных услуг выполняет все работы по обслуживанию вашей БД, а вы обеспечиваете и используете ее. А вишенкой на торте здесь являются бессерверные БД. С ними вас волнует только ввод и вывод данных. Вам не нужно правильно определять размер экземпляров или беспокоиться о том, как и когда масштабировать. Система сама справится с этим в фоновом режиме.

И последнее замечание, связанное с инфраструктурой: поскольку мы видим все больше событийно-ориентированных приложений и сервисно-ориентированных архитектур, мы должны порадоваться тому, насколько мы свободны в использовании одной или многих БД для поддержки наших приложений. Теперь у нас есть возможность сочетать мощь реляционных БД с базами данных NoSQL наряду с объектными хранилищами данных. Объединенные вместе, эти специализированные разработки могут создать масштабируемое, устойчивое и экономичное решение для успешной работы наших приложений.

Что такое конвейеры данных

Конвейеры данных — это определенные рабочие процессы, которые помогают обрабатывать и отправлять данные. Они могут быть пакетными, микропакетными или потоковыми. Эти конвейеры также могут помочь преобразовывать данные и повышать их ценность по мере их продвижения в общем процессе. Наконец, они могут позволить вам делиться данными с последующими потребителями на различных этапах общего жизненного цикла данных.

Например, сценарии использования в режиме реального времени могут получать данные из конвейера на всех этапах, но ценой тому будет работа с сырыми или необработанными данными. Аналогичным образом, пакетные сценарии могут получать данные дальше по конвейеру, где они могут быть более обработанными, но при этом вырастут и задержки.

Что такое управление данными

Управление данными само по себе является туманной темой, поэтому для целей этой статьи мы остановимся на простом взгляде. Управление данными поможет вам ответить на несколько ключевых вопросов.

  • Где вам нужны ваши данные? Онпремис? В частном облаке? В публичном облаке? В их сочетании?
  • Внутри этих мест, какую технологию баз данных вы будете использовать? Реляционную? NoSQL? In-Memory?
  • Как вы будете управлять стандартными операциями CRUD с данными, поскольку они становятся фрагментированными в разных местах и БД?
  • Какова стоимость потери данных, и выделены ли на ваш план обеспечения высокой доступности/аварийного восстановления правильные инвестиции для снижения этого риска?
  • Как вы обеспечите безопасность и надлежащий аудит доступа к конфиденциальным данным?
  • Какова правильная политика хранения данных, чтобы гарантировать, что вы храните нужный объем данных в нужном месте?

Дилемма «сделай сам» или «закажи для себя»

Учитывая все предыдущие аспекты, выбор правильной инфраструктуры данных может оказаться сложной задачей. Хотя инвестиции в нее абсолютно оправданы, определение правильного ландшафта и развертывание опций может быть обременительным для компаний.

За последние несколько лет в ИТ-индустрии произошел серьезный сдвиг: все больше компаний переключают внимание на свое ценностное предложение и отказываются от содержания огромных ИТ-отделов. Если вы можете заставить свою ИТ-команду сосредоточиться на создании ценности, а облачный партнер возьмет на себя такие рутинные задачи, как обновление ОС, исправление баз данных и т. д., то почему бы и нет? Если учесть, что в 2022 г. рынок труда ИТ-специалистов стал еще более тесным, в этом есть большой смысл.

Однако это не черное и белое. Хороший партнер по облачным услугам сможет дополнить вашу ИТ-команду где и как вам это необходимо. Некоторые компании готовы поделиться своей проблемой и попросить партнера найти решение. Некоторые хотят более активного партнерства и объединения команд для совместной разработки. А некоторым компаниям партнер нужен для того, чтобы обучить их, заложить фундамент и помочь им на их пути.

В любом из этих сценариев достойный партнер привнесет богатый опыт, который поможет вам быстрее решить проблемы и избежать распространенных подводных камней. Самый ценный совет, который я когда-либо получал в области технологий, обычно звучал так: «Эй, я это уже пробовал, и это было больно! Вот немного другой подход, который хорошо сработал для меня. Позвольте мне помочь вам».