Защита потоковых данных — это стратегический императив. Анил Инамдар, руководитель глобального отдела сервисов данных NetApp Instaclustr, рассказывает на портале The New Stack о пяти стратегиях для создания безопасных и масштабируемых потоков данных, готовых к эре искусственного интеллекта.

Потоковые данные лежат в основе кампаний по персонализации в реальном времени, выявлению мошенничества, предиктивному обслуживанию и еще целого ряда критически важных для бизнеса инициатив. С учетом того, что ИИ теперь многократно увеличивает ценность этих сценариев использования, целостность этих данных важна как никогда.

Однако ИИ — это обоюдоострый меч. Те же системы, которые обеспечивают новые преимущества для бизнеса, также создают новые поверхности для атак. Согласно недавнему отчету NetApp «2024 Data Complexity Report», 69% предприятий отмечают рост угроз безопасности, связанных с ИИ. Большинство руководителей высшего звена назвали глобальные риски безопасности главным источником стресса, и это давление будет только усиливаться по мере того, как потоковые данные будут все глубже внедряться в основные системы.

Защита потоковых данных — это уже не просто передовая ИТ-практика. Это стратегический императив. Ниже представлены пять стратегий, проверенных на практике, которые служат образцом для создания безопасных и масштабируемых потоков данных, готовых к эпохе ИИ.

1. Используйте Open Source для слоя данных

Технологии с открытым исходным кодом, такие как Apache Kafka, доминируют в области потоковых данных не только благодаря масштабируемости, но и благодаря безопасности. Активное сообщество разработчиков Kafka постоянно исправляет уязвимости, проводит стресс-тестирование функций и усиливает защиту быстрее, чем альтернативы с закрытым исходным кодом.

Открытый код (подразумевается 100%-но открытый исходный код, а не альтернативы с открытым ядром, которые способствуют привязке к поставщику) — это далеко не помеха, а большое преимущество. Прозрачность обеспечивает быстрое обнаружение рисков и реагирование на них, а предприятия получают не только безопасность. Они также получают модульные архитектуры с возможностью интеграции ИИ и долгосрочной жизнеспособностью.

2. Блокировка доступа к данным

Потоковые данные никогда не должны быть широко открыты внутри предприятия. Контроль доступа с наименьшими привилегиями, обеспечиваемый с помощью моделей на основе ролей (RBAC) или атрибутов (ABAC), ограничивает каждого пользователя или приложение только тем, что необходимо.

Высоко детализированные списки контроля доступа (ACL) добавляют еще один уровень защиты, ограничивая доступ на чтение/запись только необходимыми темами или каналами. Если объединить эти средства контроля с многофакторной аутентификацией, то даже скомпрометированные учетные данные вряд ли дадут злоумышленникам значительный доступ.

3. Патчите рано, патчите часто

В 2024 г. мы увидели более 40 тыс. распространенных уязвимостей и уязвимых мест (CVE), что является историческим максимумом. Нынешний год уже побил этот рекорд: прогнозируется более 50 тыс. уязвимостей.

В то же время слишком много предприятий не успевают регулярно внедрять обновления, оставляя в своей инфраструктуре дыры, которые можно эксплуатировать. Платформы потоковых данных (часто высокопроизводительные и постоянно работающие) не могут позволить себе такой риск. Предприятия должны относиться к исправлениям как к критически важной операции по обеспечению безопасности, а не как к вспомогательной задаче.

Автоматизируйте, где это возможно. Отслеживайте информацию о CVE. Установите соглашения об уровне обслуживания (SLA) для применения высокоприоритетных обновлений. Бдительность принесет свои плоды.

4. Переходите к частным сетям

Настройка пиринга и частных сетей в виртуальном частном облаке (VPC) необходима предприятиям, которые хотят обеспечить безопасность потоковых данных при их передаче. Благодаря таким конфигурациям данные никогда не попадают в публичный Интернет, что исключает возможность атак распределенного отказа в обслуживании (DDoS), атак типа «человек посередине» и внешней разведки.

Помимо безопасности, частные сети повышают производительность. Они снижают джиттер и задержку, что очень важно для приложений, которые зависят от доставки данных за доли секунды, или для моделей ИИ, реагирующих на запросы. Хотя VPC-пиринг требует продуманной настройки, преимущества в надежности и защите вполне оправдывают вложенные средства.

5. Относитесь к нормам конфиденциальности данных как к архитектурным требованиям

Такие нормы конфиденциальности данных, как GDPR, HIPAA и PCI-DSS, должны рассматриваться как основные архитектурные принципы, а не просто как флажки комплаенса. Предприятия, которые с самого начала уделяют приоритетное внимание конфиденциальности, имеют больше возможностей для создания устойчивых систем, которые выдерживают проверки и масштабируются без риска.

Это означает, что потоковые архитектуры должны поддерживать анонимизацию данных на этапе их получения, устанавливать четкие политики хранения данных, исключающие ненужное хранение, и осуществлять мониторинг в режиме реального времени для выявления необычных закономерностей доступа или поведения. Если компрометация все же произошла, команды должны иметь возможность быстро реагировать, опираясь на подробные журналы и оповещения, которые напрямую соответствуют требованиям к нормативной отчетности.

Не менее важно, что безопасность должна быть внедрена в культуру. Предприятия, которые регулярно обучают своих сотрудников вопросам конфиденциальности и защиты данных (не только технических специалистов, но и всех, кто имеет дело с данными клиентов), как правило, раньше выявляют проблемы и быстрее их устраняют. Изначально заложенная конфиденциальность (privacy-by-design) — это не только юридическая стратегия. Это операционное преимущество.

Обеспечьте безопасность сейчас, масштабируйте с уверенностью

Потоковые данные — это нервная система современных предприятий, и их ценность будет только расти. Но без строгих методов обеспечения безопасности они становятся обузой. Реализовав эти пять стратегий, руководители предприятий смогут построить масштабируемые и безопасные конвейеры данных, которые будут поддерживать инновации, не жертвуя безопасностью. Цель состоит не только в том, чтобы опередить злоумышленников, но и в том, чтобы создать достаточно прочный фундамент для поддержки любого будущего, основанного на ИИ.