Большинство предприятий работают со своими неструктурированными данными вслепую. Они не знают, что у них есть, кто их использует, почему они так быстро растут и как эффективнее ими управлять, пишет на портале TechBeacon Кришна Субраманиан, соучредитель, президент и операционный директор Komprise.

ИТ-руководителям необходимо понимание неструктурированных данных. Без этого они не смогут сократить значительные расходы на хранение данных. По данным нашего исследования по управлению неструктурированными данными, проведенного в 2022 г., большинство предприятий тратят более 30% своего ИТ-бюджета на хранение, резервное копирование и аварийное восстановление данных.

Помимо высоких расходов, которые могут стать еще выше, если не оптимизировать размещение хранилищ в облаках, существует также вопрос монетизации данных. Неструктурированные данные слишком часто обладают значительной неизвлеченной бизнес-ценностью. Большинство организаций используют лишь небольшой процент данных, которые они производят и хранят. Недавнее исследование Accenture показало, что 68% компаний не получают ощутимой и измеримой выгоды от своих данных.

Поскольку неструктурированные данные составляют львиную долю всех данных в мире, вам необходимо знать, какие данные у вас есть, кому нужен доступ к ним, насколько они активны, где они хранятся и какова их ценность для организации. Вам нужна видимость.

Добиться такой видимости, конечно, нелегко; в нашем сложном мире гибридных облаков неструктурированные данные разбросаны по корпоративным дата-центрам, центрам колокации, периферийным системам и различным облачным сервисам. Перемещение данных в центральное хранилище является дорогостоящим и, скорее всего, невозможным предложением из-за распределенного характера данных и способов их создания в современном мире.

Поскольку объем корпоративных неструктурированных данных (включая изображения, видео и документы) может достигать миллиардов файлов различных типов и размеров, организациям необходим систематический подход к их анализу и классификации. Создание доступного для поиска индекса всех данных организации по всем изолированным хранилищам — от локальных до периферийных и облачных — является важным первым шагом к достижению видимости.

Начать с основы

Вы можете решить проблемы видимости данных в своей организации, разработав план и процесс оценки и отслеживания неструктурированных данных. Существует несколько основных характеристик данных, которые вы захотите начать отслеживать, включая:

  • объем данных в хранилище;
  • темпы роста объема данных с течением времени;
  • возраст данных;
  • типовые параметры доступа, например, время последнего обращения;
  • местоположение данных;
  • типы файлов и их размеры;
  • основные владельцы данных и типы хранимых ими данных;
  • затраты на хранение данных, резервное копирование и аварийное восстановление сегодня и в будущем.

Объясню, почему эти характеристики важны:

Метрики использования данных. Без возможности увидеть, какие файлы/общие ресурсы/каталоги используются регулярно, а к каким не обращались в течение года или более, трудно делать что-то другое, кроме как хранить все данные в дорогом и высокопроизводительном хранилище. Однако если вы увидите, что много ваших данных редко используются (т. н. «холодные»), то сможете управлять ими с гораздо меньшими затратами, перемещая или распределяя их в более дешевые хранилища, например облачные объектные. Кроме того, в организациях с действующими внутренними моделями оплаты ИТ, руководители отделов должны знать показатели роста данных и знать, кто является ведущими владельцами данных, чтобы эти лица были включены в обсуждение вопросов управления данными.

Конфиденциальные данные. Иногда организациям необходимо полностью удалить данные по юридическим причинам — например, личные данные бывших сотрудников или финансовые данные бывших клиентов. Возможность легкого поиска имен клиентов и отдельных лиц, связанных с файлами, дает здесь огромное преимущество. Детализированный поиск (например, по расширению файла или метаданным) позволяет найти интеллектуальную собственность или финансовые данные, которые могли быть скопированы или перемещены в другое место без соответствующей защиты или правил доступа.

Финансовые показатели. В рамках стратегии управления данными (DataOps) и облачными затратами (FinOps) ИТ-руководители должны понимать стоимость хранения данных на текущих технологиях и уметь прогнозировать затраты на переход на другую платформу хранения. Исходя из этого, они могут определить, будет ли экономически эффективным, например,

  • переместить менее активные данные в облако;
  • перенести локальные данные в сетевое хранилище (NAS);
  • удалить некоторую часть архивов данных.

Вооружившись знаниями о своих информационных активах, ИТ-команды могут устанавливать политики для прозрачного распределения данных по уровням для наиболее экономически эффективного хранения на основе сценариев использования и приоритетов наборов данных. Получив такие возможности, ИТ-руководители могут сократить расходы на хранение и управление данными, одновременно обеспечив быстрый рост объема данных.

Уточнение данных

Начав оценку неструктурированных данных с помощью индексирования и аналитики, подумайте о дальнейшем уточнении. Когда вы помечаете данные дополнительным контекстом, таким как демографические аспекты, описательные детали (например, «изображение глаз») или названия проектов, вы открываете новые параметры поиска, чтобы помочь пользователям и принять лучшие решения по управлению данными. (Ищите решение для управления неструктурированными данными, которое поддерживает автоматическое присвоение тегов в соответствии с политикой и может сохранять теги для данных, куда бы они ни перемещались.)

Более того, систематически классифицированные, хорошо управляемые и легко находимые данные жизненно важны для подпитки новейшего поколения доступных и мощных приложений искусственного интеллекта и машинного обучения. Новые инструменты ИИ/МО могут запустить инновационные циклы организации, обеспечить заметное повышение производительности и/или оптимизировать обнаружение аномалий для значительного снижения рисков безопасности/соответствия нормативным требованиям.

Поскольку данные становятся все более важными для принятия бизнес-решений, разработки продуктов и стратегии работы с клиентами, знания об этих данных становятся все более ценными для сотрудников всей организации. ИТ-директору необходимо понимать высокоуровневые последствия облачного хранения и роста объема данных. Исследователи хотят знать, какие данные доступны для будущих проектов. Юридические службы и службы безопасности должны обеспечивать защиту данных и возможность их обнаружения в случае необходимости для проведения аудита или расследований.

Однако одной лишь видимости недостаточно. Чтобы получить окупаемость инвестиций от управления неструктурированными данными, эти знания о данных должны быть интегрированы в рабочие процессы. Переход от понимания к действиям — миграция, распределение по уровням, копирование и удаление данных, а также постоянное управление жизненным циклом данных — должен быть простым и соответствовать потребностям пользователей, приложений и отделов.