Информация — это власть, и все больше и больше корпоративных ИТ-специалистов используют мощь больших данных для лучшего понимания движущих сил своих компаний. Тем временем информация продолжает накапливаться, объем данных ежегодно удваивается. Примерно 80% собранных данных относятся к неструктурированным и должны форматироваться с помощью платформы пакетной обработки, такой как Hadoop, чтобы из них можно было извлечь информацию. Предприятия хотят воспользоваться важными выводами, которые можно сделать из накопленных ими данных. Но их подстерегает серьезная опасность: система Hadoop создавалась без учета требований безопасности. Вопрос о ее защите возник уже в дальнейшем. В связи с растущей популярностью Hadoop на предприятиях ее недостатки с точки зрения безопасности становятся все более очевидными. В данном материале редакция eWeek показывает основные проблемы безопасности, с которыми сталкиваются предприятия при работе с большими данными. Сведения предоставлены Брайаном Кристианом, соучредителем и главным технологом молодой фирмы Zettaset, которая специализируется на безопасном управлении большими данными, и компанией Cloudera, выпускающей дистрибутив Hadoop. Кроме того, использованы опубликованные в eWeek статьи по проблемам хранения и защиты данных.

1. Hadoop не предназначалась для корпоративных данных

Как и многие другие революционные ИТ (например, TCP/IP или Unix), система Hadoop первоначально создавалась без учета требований предприятий, не говоря уже о корпоративной безопасности. Изначальной целью Hadoop было управление общедоступной информацией, такой как ссылки в Интернете, и предназначалась она для форматирования больших объемов неструктурированных данных в распределенной вычислительной среде, конкретно — в среде Google. Она писалась не для поддержки усиленной безопасности, соблюдения требований регуляторов, шифрования, использования политик и управления рисками.

2. Безопасность Hadoop целиком зависит от Kerberos

Для аутентификации Hadoop использует Kerberos. Однако данный протокол может оказаться трудным в реализации. Кроме того, он не отвечает ряду требований корпоративной безопасности, таким как аутентификация на базе ролей, поддержка протокола LDAP и каталога Active Directory для задействования политик. Еще Hadoop не поддерживает шифрование данных на узлах или при передаче между узлами.

3. Кластеры Hadoop состоят из многих узлов

Традиционные технологии обеспечения безопасности данных строятся на концепции защиты отдельной физической единицы (базы данных или сервера), а не распределенных уникальным образом вычислительных сред для больших данных, характерных для кластеров Hadoop. Традиционные технологии безопасности неэффективны в такой крупномасштабной распределенной среде.

4. В Hadoop традиционные резервное копирование и восстановление данных носят иной характер

Распределенная природа кластеров Hadoop делает неэффективными многие традиционные методы и политики резервного копирования и восстановления данных. Использующие Hadoop компании должны производить репликацию, резервное копирование и хранение данных в независимой защищенной среде.

5. Hadoop редко используется в одиночку

Чтобы использовать преимущества больших данных, Hadoop применяется в сочетании с другими технологиями, такими как Hive, HBase или Pig. Хотя подобные инструменты обеспечивают доступ к большим данным и их использование, большинство из них также не обеспечивает защиту корпоративного класса. Укрепление безопасности непосредственно Hadoop — только часть проблемы защиты больших данных.

6. Требования регуляторов действуют и применительно к большим данным

Для больших данных нет особого набора требований. Независимо от ИТ, используемых для хранения данных и управления ими, предприятия должны соблюдать требования регуляторов о конфиденциальности и защите данных, такие как HIPAA (здравоохранение), PCI (кредитование) и закон Сарбейнса — Оксли, даже если одобренные ими традиционные технологии безопасности не решают всех проблем больших данных.

7. Издержки взлома не определены

До сих пор никому не удалось назвать точную цифру, во сколько может обойтись организации взлом ее системы защиты. Без тщательной оценки своей системы безопасности предприятие не может выявить ее слабые места или определить, сколько именно следует на нее тратить.

8. Пользователи больших данных оказываются один на один с проблемами безопасности

Передовой опыт компаний, использующих кластеры Hadoop, предусматривает дополнительные средства управления доступом и ограничение количества сотрудников, имеющих доступ к кластеру.

9. Для защиты кластера данных требуются дополнительные шаги

Это будет необходимо до тех пор, пока не появятся ИТ, устраняющие уязвимости среды Hadoop. Организациям следует регулярно проводить сканирование ИТ-среды для выявления уязвимостей. Также им надлежит взять за правило реплицировать данные, создавать резервные копии и хранить их в отдельной безопасной среде.

10. Пользователи Hadoop должны быть в курсе изменений в данной сфере

С превращением пакетной обработки больших данных в массовое явление на предприятиях регулярно появляются новые ИТ (создаваемые как уже известными, так и начинающими компаниями), призванные сделать большие данные более полезными для бизнеса. Поэтому ИТ-менеджеры должны периодически посещать такие ресурсы, как eWeek, освещающие все важные аспекты работы с большими данными: безопасность, хранение, серверы и системы для ЦОДов в целом.