Инженер-программист Джеймс Уокер приводит на портале The New Stack обзор плюсов и минусов использования облачных и локальных хранилищ, а также третьего варианта — «прилегающего к облаку» (cloud-adjacent) хранилища, сочетающего лучшее из этих двух.

Платформа данных — это то, как компания хранит, управляет и анализирует свои данные, свой самый ценный актив. Чем мощнее и эффективнее платформа, тем эффективнее можно использовать данные.

Платформы данных позволяют преобразовывать потоки данных из всевозможных источников — от бизнес-приложений до платформ IoT и инструментов ИИ — в планы действий по достижению таких бизнес-результатов, как совершенствование продукции, улучшение процессов и новые коммерческие возможности.

Поэтому очень важно правильно выбрать архитектуру платформы данных. Большую роль в этом играет оптимальная инфраструктура — эффективное сочетание ресурсов хранения, сетей и вычислений, которое не приводит к росту затрат и сложности, выходящих из-под контроля.

Большие объемы данных и сложные процедуры анализа в современных платформах данных требуют специализированной инфраструктуры для поддержки производительности и надежности в масштабе. Хотя необходимо учитывать все аспекты инфраструктуры, в случае платформ данных вычислительные и сетевые аспекты и аспекты надежности, как правило, вторичны по отношению к аспектам хранения.

Давайте рассмотрим плюсы и минусы использования облачной и локальной инфраструктуры хранения для платформы данных, а также третий, лучший из двух вариантов: cloud-adjacent.

В целом, облачные хранилища дают вам преимущество в масштабируемости и доступе к облачным инструментам, в то время как локальная инфраструктура обеспечивает полный контроль над вашими данными. Прилегающее к облаку хранилище дает вам контроль над локальной инфраструктурой при сохранении возможности использовать облачные инструменты.

Преимущества облачного хранения данных

Полностью облачные решения размещают ваши данные в удаленной инфраструктуре, которую вам предоставляет поставщик услуг. Основные преимущества такого подхода заключаются в следующем:

— Отпадает необходимость в приобретении и обслуживании физического оборудования для хранения данных. Облако не требует никаких (или очень низких) предварительных затрат, поскольку вам не нужно самостоятельно приобретать какие-либо устройства хранения. Вы платите за то, что вам нужно, по мере использования, что позволяет сократить капитальные расходы. Инфраструктура полностью управляема, поэтому вам также не придется нести операционные расходы на обслуживание системы.

— Поддержка интегрированных возможностей сбора и анализа. Многие поставщики облачных хранилищ напрямую интегрируются с платформами данных или предлагают собственные комплексные услуги. Вы можете получать, анализировать, преобразовывать и выводить данные в одном месте, сводя к минимуму дорогостоящую и занимающую время передачу данных.

— Бесшовная масштабируемость, надежность и высокая доступность. Беспроблемная масштабируемость — это, пожалуй, самое большое преимущество облачных хранилищ. Вы платите за то, что используете, добавляя емкость хранилища и производительность вычислений по мере необходимости. Вы также получаете удобный способ обеспечения отказоустойчивости и высокой доступности.

— Автоматизация безопасности и соответствия нормативным требованиям. Облачные хранилища обычно поставляются с интегрированными средствами безопасности, которые помогают защитить ваши данные и предотвратить несанкционированный доступ. Провайдеры также могут поддерживать требования по комплаенсу с помощью специализированных услуг.

Недостатки облачных хранилищ

Использование облачного хранилища для платформы данных не лишено недостатков, к которым относятся:

— Меньший контроль над ресурсами. Поскольку ваши данные хранятся в облаке, вы не можете полностью контролировать инфраструктуру, на которой они работают, или управление внутренними аспектами службы хранения. Это может быть ограничивающим фактором для больших и сложных наборов данных с особыми требованиями к производительности.

— Меньше возможностей для достижения точного сочетания вычислений, сетей и систем хранения. Доступные вам варианты конфигурации инфраструктуры ограничены тем, что предлагает поставщик облачных услуг. Это может привести к избыточному выделению (и, соответственно, переплате) некоторых элементов инфраструктуры для создания нужной вам платформы (например, больше ядер vCPU, чем необходимо).

— Повышенные риски безопасности и конфиденциальности. Публичные облачные платформы представляют собой общую инфраструктуру, поэтому существует риск латеральных атак. Кроме того, вы не можете полностью контролировать доступность своей сети из публичного Интернета. Сервисы могут требовать сложных политик конфигурации для применения основных средств защиты, что повышает риск упущений в обеспечении безопасности.

— Более высокие затраты с течением времени. Облако отличается низкими первоначальными затратами, но это не обязательно означает снижение стоимости владения на протяжении всего жизненного цикла вашей платформы данных. Плата за хранение данных в облаке может увеличиваться, особенно если используется специализированное решение для хранилища данных. Например, тарифные планы «по требованию» Amazon Redshift варьируются от 1,08 до 13,04 долл. в час, в то время как кредитная модель Snowflake приводит к типичной плате от 2 долл. в час до более чем 1024 долл. в час для самых крупных планов.

Преимущества локальных систем хранения данных

Под локальной инфраструктурой понимаются ресурсы, которыми вы владеете и управляете в рамках своей организации. Для платформы данных это означает приобретение и настройку серверов и накопителей, а затем их развертывание в среде дата-центра. Локальная инфраструктура сложнее в настройке и обслуживании, но она дает вам полный контроль над платформой.

К другим преимуществам относятся:

— Ваша инфраструктура — это ваш актив. Приобретение собственных серверов и накопителей требует больших первоначальных затрат, но это актив для вашей организации. Если вы уверены, что сможете спрогнозировать свои потребности в хранении данных, владение инфраструктурой может значительно снизить долгосрочные затраты по сравнению с облачными системами хранения.

— Полный контроль над оборудованием и данными. Вы полностью контролируете свою инфраструктуру, вплоть до серверов хранения, файловых систем и ОС. Вы можете настроить любое сочетание ресурсов вычислений, сетей и систем хранения и создать платформу, отвечающую именно вашим требованиям.

— Отсутствие конкуренции за ресурсы. Работа на собственном оборудовании означает отсутствие конкуренции за ресурсы, в отличие от облачных сервисов, которые могут быть подвержены влиянию «шумных соседей». Вы также будете защищены от сбоев в работе облачных сервисов, если уверены в надежности собственных систем.

— Возможность защищать хранилища данных «воздушным зазором». Облако может не подходить для критически важных данных. Локальная инфраструктура позволит вам сохранить конфиденциальность этих ресурсов и при необходимости защитить «воздушным зазором» (air gap). Нулевой контакт с Интернетом значительно снижает потенциальную угрозу безопасности.

Недостатки локальных систем хранения данных

Создание и эксплуатация инфраструктуры хранения, поддерживающей большую платформу данных, — задача не из легких:

— Высокие первоначальные затраты. Сборка локальной платформы данных требует больших затрат. Вам нужно будет приобрести или арендовать помещение для дата-центра, а затем заполнить его вычислительными, сетевыми устройствами и устройствами хранения данных. Кроме того, для обеспечения масштабируемости и надежности необходимо регулярно добавлять и заменять носители данных.

— Требуется опыт. Создание, эксплуатация и обслуживание локальной платформы данных требует специальных знаний и опыта, а число квалифицированных инженеров относительно невелико. Вам необходимо иметь таких специалистов в своей команде или оплачивать их привлечение со стороны.

— Сложность масштабирования платформы. Масштабирование локальных платформ данных — сложная и трудоемкая задача. Необходимо приобрести дополнительные диски, добавить их в массивы хранения и проверить правильность работы. Аналогично, увеличение вычислительной и сетевой мощности требует установки сложного оборудования, что может привести к простою платформы. На практике эти работы часто передаются на аутсорсинг специалистам по управлению инфраструктурой, но зависимость от подрядчиков может свести на нет преимущества локальных систем в плане стоимости и контроля.

— Более сложная интеграция с аналитическими сервисами. Набор инструментов и сервисов, которые можно использовать для анализа данных в локальных системах, гораздо меньше, чем в облачных. Многие движки для работы с данными ИИ и MО предназначены для использования в облаке, что может ограничить разнообразие способов использования данных.

Cloud-Adjacent Storage: лучшее из двух миров

Модель прилегающего к облаку хранилища сочетает в себе преимущества облачных и локальных моделей платформы данных, исключая их основные недостатки.

Под «прилеганием к облаку» здесь понимается сохранение частной инфраструктуры хранения, но ее частное подключение к публичным облачным платформам через вспомогательные облачные модули-коннекторы (cloud onramps), расположенные в тех же кампусах дата-центров.

Это можно сделать, разместив собственную инфраструктуру хранения у оператора дата-центра, который предоставляет доступ к облачным платформам. Можно также использовать специализированное облачное решение, которое удаленно и по требованию предоставляет полностью управляемые вычислительные системы и системы хранения, работающие на одного арендатора.

Преимущества такого подхода заключаются в следующем:

— Контроль над конфигурациями. Вы имеете полный контроль над ресурсами инфраструктуры, включая серверное оборудование и ПО, лежащее в основе вашей платформы данных, а также сетевое взаимодействие.

— Прямое сетевое подключение «облако — облако». Облачные коннекторы позволяют создавать сети между облаками с помощью частных соединений, предоставляя больше возможностей для обработки данных. Это распространяется и на прямые сетевые подключения уровней 2 и 3, позволяя снизить задержки, ускорить интенсивные операции, такие как ввод и резервное копирование, и минимизировать риск перехвата или манипулирования трафиком.

— Снижение затрат. Стоимость частного облачного соединения может быть ниже, чем стоимость полностью облачной или локальной системы. Вы можете сэкономить не только на самом хранилище, но и на стоимости передачи данных, спроектировав свою сеть таким образом, чтобы избежать передачи большого количества данных из облачного региона или сервиса.

— Доступ к подробной облачной аналитике. Прилегающее к облаку хранилище позволяет использовать весь спектр облачных инструментов для анализа, обработки и преобразования данных. Вы можете использовать облачные инструменты для работы с конфиденциальными данными через быстрое и надежное частное соединение.

Облачные и локальные решения подходят для разных сценариев использования, но вам не обязательно выбирать только одно из них. Гибридный подход с использованием выделенных облачных и прилегающих к облаку хранилищ является для многих организаций наиболее гибким и экономически эффективным вариантом. Он обеспечивает безопасную частную сеть и облачную аналитику данных, а также надежную производительность и контроль конфигурации.