Управление неструктурированными данными может быть сложным и запутанным. Опрошенные порталом InformationWeek эксперты дают несколько полезных советов, которые помогут решать эту задачу намного быстрее и проще.

Структурированные данные, такие как имена и номера телефонов, аккуратно укладываются в строки и столбцы. В то же время неструктурированные данные, например аудиофайлы или веб-страницы, не имеют фиксированной схемы и могут иметь очень сложный формат.

К сожалению, не существует единого оптимального способа эффективного управления неструктурированными данными. С другой стороны, существует несколько подходов, которые можно использовать для успешного решения этой важной, но все еще трудноразрешимой задачи. Вот пять проверенных способов эффективного управления неструктурированными данными от экспертов.

Совет 1. Используйте векторные базы данных для ИИ в сочетании с генерацией с расширенным поиском

«Один из самых эффективных методов, который я видел, — это использование векторных баз данных для ИИ в сочетании с генерацией с расширенным поиском (RAG)», — говорит Анбанг Сюй, основатель компании Jogg.AI, занимающейся созданием ИИ-генераторов видео, и бывший старший инженер-программист Google. Он считает, что использование векторных баз данных позволит предприятиям хранить и извлекать данные на основе контекстного значения, а не точного соответствия ключевым словам, вместо того чтобы принудительно загонять неструктурированные данные в жесткие схемы. «Это особенно важно для текстовых, аудио-, видео- и графических данных, где традиционные методы поиска оказываются неэффективными», — отмечает он.

Например, говорит Сюй, организации, использующие векторные вложения, могут организовывать и запрашивать огромные объемы неструктурированных данных по смыслу, а не по синтаксису. «Именно это позволяет использовать передовые приложения ИИ, такие как интеллектуальный поиск, чат-боты и рекомендательные системы, — объясняет он. — Мы на собственном опыте убедились, что индексирование и поиск на основе ИИ значительно упрощают превращение необработанных неструктурированных данных в полезные инсайты».

Совет 2. Применяйте подход «schema-on-read»

Еще один инновационный подход к управлению неструктурированными данными — «schema-on-read» (ввод данных без предопределенной схемы). «В отличие от традиционных баз данных, которые определяют схему — структуру данных — до их сохранения, „schema-on-read“ откладывает этот процесс до фактического чтения или запроса данных», — говорит Камал Хати, старший вице-президент и генеральный менеджер входящей в состав Cisco компании Splunk, занимающейся разработкой ПО для мониторинга и анализа данных, генерируемых машинами.

Такой подход особенно эффективен для неструктурированных и полуструктурированных данных, где схема не является предопределенной или жесткой. «Традиционные базы данных требуют заранее определенной схемы, что делает их работу с неструктурированными данными сложной и менее гибкой», — отмечает он.

Ключевое преимущество «schema-on-read» заключается в возможности работать с необработанными данными без необходимости применять традиционные процессы извлечения-преобразования-загрузки (ETL), утверждает Хати: «Это, в свою очередь, позволяет работать с разнообразием, которое обычно наблюдается в данных, генерируемых машинами, таких как журналы телеметрии систем и приложений».

Совет 3. Обратитесь к облаку

Управляйте неструктурированными данными, объединяя их со структурированными данными в облачной среде с помощью тегов метаданных и классификаций на основе ИИ, советует Кэм Огден, старший вице-президент компании Precisely, специализирующейся на обеспечении целостности данных. «Традиционно структурированные данные — например, базы данных клиентов или финансовые отчеты — хранятся в хорошо организованных системах, таких как реляционные базы данных или хранилища данных», — говорит он. Однако для того чтобы в полной мере использовать все свои данные, организациям необходимо разрушить изолированность структурированных данных от других форм данных, включая неструктурированные данные, такие как текст, изображения или файлы журналов. Именно здесь на помощь приходит облако.

По словам Огдена, интеграция структурированных и неструктурированных данных в облаке дает возможность проводить более комплексную аналитику, позволяя организациям извлекать более глубокие инсайты из ранее разрозненной информации. Инструменты на базе ИИ могут классифицировать и обогащать как структурированные, так и неструктурированные данные, облегчая их обнаружение, анализ и управление на центральной платформе, отмечает он.

«Облако обеспечивает масштабируемость и гибкость, необходимые для обработки больших объемов данных и поддержки динамических аналитических рабочих нагрузок», — говорит Огден. Кроме того, облачные платформы предлагают расширенные возможности управления данными, обеспечивая безопасность структурированных и неструктурированных данных, соблюдение нормативных требований и соответствие бизнес-целям. «Такой подход не только оптимизирует управление данными, но и позволяет организациям принимать более обоснованные и эффективные решения на основе данных в режиме реального времени», — заключает он

Совет 4. Используйте классификацию и индексирование на основе ИИ

По словам Адхирана Тирмала, старшего инженера по решениям компании Security Compass, специализирующейся на кибербезопасности, один из лучших способов взять неструктурированные данные под контроль — использовать классификацию и индексирование на основе ИИ. «С помощью машинного обучения и обработки естественного языка (NLP) можно автоматически сортировать, помечать и организовывать данные на основе их содержания и контекста, — объясняет он. — Такой подход в сочетании с масштабируемой системой хранения данных, например озером данных или объектным хранилищем, упрощает поиск и использование информации в нужный момент».

По словам Тирмала, ИИ избавляет от ручной работы по организации данных. «Больше не нужно тратить время на копание в файлах и на то, чтобы навести порядок, — утверждает он. — ИИ может быстро найти нужную информацию, сокращая количество человеческих ошибок и повышая эффективность. Он также отлично подходит для обеспечения соответствия нормативным требованиям, гарантируя, что конфиденциальные данные, например личная или финансовая информация, будут должным образом обработаны и защищены».

Совет 5. Создайте единую суверенную платформу данных

Инновационный подход к управлению неструктурированными данными выходит за рамки устаревших методов создания озер данных, говорит Бенджамин Андерсон, старший вице-президент по технологиям компании EnterpriseDB, предоставляющей сервисы баз данных. Единая суверенная платформа данных объединяет неструктурированные, полуструктурированные и структурированные данные в единую систему, устраняя необходимость в отдельных решениях. «Такой подход обеспечивает качество обслуживания, ранее доступное только для структурированных данных, — поясняет он. — Благодаря гибридной плоскости управления организации могут централизованно управлять своими данными в различных средах, включая различные облачные платформы и локальную инфраструктуру».

Когда речь заходит об управлении различными формами данных, структурированными, неструктурированными или полуструктурированными, традиционный подход требует использования нескольких баз данных и решений для хранения, что усложняет работу, увеличивает затраты и повышает риск нарушения нормативных требований, отмечает Андерсон. «Консолидация структурированных и неструктурированных данных на единой мультимодельной платформе данных поможет ускорить транзакционные и аналитические рабочие нагрузки и рабочие нагрузки ИИ», — считает он.