Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама

Облачная защита от DDoS: альтернатива возможна, но в редких случаях

DDoS-атаки развиваются не по принципу замены старых методов новыми, а по принципу накопления. Техники …

Состояние и перспективы развития российских систем управления идентификацией и доступом. Часть 2

Российское vs иностранное Сравнивая функционал отечественных решений для управления идентификацией и доступом …

National Business Award наградила за поиск

Недавно в Москве состоялась церемония награждения престижной премии National Business Award, которая отмечает достижения …

Быстро и эффективно: расставляем приоритеты при настройке SIEM

После приобретения системы управления инцидентами ИБ (SIEM) перед организацией встаёт практический вопрос: как сделать так …

Евгений Шелестюк, генеральный директор DCLogic, о бизнес-регате IT SAILING DAY, 13 августа 2026 г.

Евгений, чему будет посвящен IT SAILING DAY 2026? Сегодня руководители ИТ-подразделений решают гораздо более сложные …

Метаданные — ключ к управлению большими данными

Алекс Сидоров | 03.12.2018

Аруп Малиаккал Падманабхан

Тиффани Нгуен

В эпоху больших данных необходим новых подход к управлению данными, пишут на портале InformationWeek сотрудники eBay Аруп Малиаккал Падманабхан (старший менеджер команды инжиниринга платформы) и Тиффани Нгуен (старший программный инженер). Данные поступают из множества источников и должны распределяться по предприятию в различных форматах.

Объем, разнообразие и быстрота поступления данных продолжают расти ошеломительными темпами, что ставит перед компаниями две неотложные проблемы: как выделить из этих данных знания, которые послужат основой действий, и как защитить данные. Решение обеих проблем напрямую связано с управлением данными.

Необходимый уровень управления может обеспечить экосистема Hadoop с помощью метаданных. В идеале — на единой платформе данных.

Новый подход к управлению необходим по ряду причин. В эпоху больших данных они распределяются по предприятию. Данные могут быть структурированными, неструктурированными, полуструктурированными и т. д. Источники данных недоступны тем командам, которые должны управлять данными.

В таких условиях управление данными преследует три важные цели:

поддержание качества данных;
реализация контроля доступа и других мер для обеспечения безопасности данных;
выделение метаданных из наборов данных, чтобы содействовать их защите и потреблению конечными пользователям.

Решения в экосистеме Hadoop

Одним из способов управления данными в среде Hadoop является расстановка тегов. При таком подходе метаданные, которые будут управлять использованием данных, встраиваются в сами данные при прохождении ими различных систем предприятия. Более того, метаданные расширяются и включают дополнительную информацию помимо таких обычных атрибутов, как размер файла, разрешения, даты модификации и т. д. Например, они могут включать сведения о бизнесе, что поможет специалисту по данным оценить полезность данных в конкретной предсказательной модели.

Наконец, в отличие от самих корпоративных данных метаданные могут быть централизованы на единой платформе.

Стандартная файловая система Hadoop Distributed File System (HDFS) способна присваивать расширенные атрибуты, что позволяет обогатить метаданные. Но для больших данных это не всегда подходит. К счастью, имеются альтернативные решения. Система управления метаданными Apache Atlas позволяет присваивать данным теги, а также может служить централизованным хранилищем метаданных. Такое хранилище станет «единым окном» для аналитиков, которые ищут релевантные наборы данных. Кроме того, пользователи популярных систем извлечения данных Hive и Spark SQL, которые являются дружественными для Hadoop, могут самостоятельно расставлять теги.

В целях безопасности Atlas может быть интегрирован с Apache Ranger — системой, обеспечивающей доступ к платформам Hadoop на основе ролей.

Проблемы загрузки метаданных

Как первоначальная загрузка метаданных на платформу Atlas, так и поэтапная загрузка в последующем сопряжены со значительными трудностями. На крупных предприятиях на начальном этапе основную проблему будет представлять объем данных. Для повышения эффективности загрузки может потребоваться оптимизация программного кода.

Последующая поэтапная загрузка представляет более сложную проблему, поскольку таблицы, индексы и авторизованные пользователи непрерывно меняются. Если эти изменения не будут быстро отражаться в доступных метаданных, конечным результатом станет снижение качества данных, доступных конечным пользователям. Чтобы избежать такой проблемы, в число строительных блоков системы следует добавить прослушивателей событий, которые будут фиксировать и обрабатывать изменения практически в реальном времени. Решение реального времени означает не просто улучшение качества данных. Оно также повышает производительность труда разработчиков, которым больше не придется ждать пакетной обработки.

Фундамент цифровой трансформации

Компании осуществляют цифровую трансформацию и пытаются стать в большей степени управляемыми данными. В данной связи высшему руководству следует помнить, что на этом пути нельзя достичь результатов без качества данных и что это требует сильного управления. Если затрагиваются большие данные, то управление на базе расширенных метаданных, хранящихся в центральном репозитории, является работоспособным решением.

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.