Организации должны заменить устаревшие процессы ETL (Extract, Transform, Load, извлечение, преобразование, загрузка) интеллектуальными рабочими процессами, основанными на метаданных, чтобы эффективно готовить огромные объемы неструктурированных данных, необходимых для современных приложений искусственного интеллекта, пишет на портале ITPro Today Кришна Субраманиан, операционный директор, президент и соучредитель компании Komprise.

В условиях, когда ИИ преобразует бизнес-операции, организациям необходимо сосредоточиться на данных и, в частности, на том, как построить эффективные конвейеры данных для снабжения ими ИИ. Проблема заключается в том, что традиционные конвейеры данных, использующие ETL, были созданы для структурированных данных и в корне не соответствуют потребностям ИИ. Модель ETL — основа бизнес-аналитики на протяжении десятилетий — была создана для другой эпохи и других типов данных. Разработанная для структурированных данных из баз данных, она больше не работает в мире, где 90% данных не структурированы и находятся в файлах различных форматов и типов. Эти данные состоят из документов, изображений, видео- и аудиофайлов, данных приборов и датчиков.

Такое смещение акцента с аналитики данных прошлого, использующей структурированные данные, на ИИ сегодняшнего дня, которому требуются большие объемы неструктурированных данных, требует полного переосмысления того, как организации готовят данные для использования их в ИИ.

Проблема неструктурированных данных

Основная проблема неструктурированных данных — отсутствие общей схемы. Вы не можете взять видеофайл, аудиофайл или скажем три видеофайла из трех разных приложений и поместить их в табличный формат, поскольку все они имеют разный контекст и разную семантику. Такое разнообразие создает значительные трудности при преобразовании.

Медицинский снимок МРТ и рекламная фотография могут иметь одинаковое расширение файла, но для них требуются уникальные структуры метаданных и подходы к обработке. Пожалуй, самое главное — требования к преобразованию существенно различаются в зависимости от контекста. Один и тот же формат документа может нуждаться в совершенно разной предварительной обработке в зависимости от того, анализируется ли он на предмет соблюдения правовых норм, настроения клиентов или результатов исследований.

Чтобы сделать неструктурированные данные пригодными для использования, безопасными и доступными для поиска в конвейерах ИИ, организациям необходимо точно обогащать метаданные, не прибегая к утомительной и сизифовой ручной работе.

Метаданные, которые автоматически генерируют системы хранения, ограничены: тип файла, дата создания, автор, дата модификации, размер, дата последнего доступа и идентификатор пользователя. Чтобы обогатить метаданные, сначала нужно создать глобальный индекс неструктурированных данных, независимо от того, в каком хранилище или облаке они находятся. Как только вы получите видимость, вы сможете добавлять теги вручную с помощью пользователей отделов, которые знают свои данные, и/или с помощью ИИ и других автоматизированных инструментов. Эти новые технологии, которые могут быть самостоятельными или существовать в составе платформы управления неструктурированными данными, быстро сканируют массивы данных и создают соответствующие метки, описывающие их содержимое. Это позволяет выявлять конфиденциальные данные, такие как персональная информация, которые должны быть исключены из рабочих процессов ИИ, и добавлять такие метки, как код проекта или ключевые слова исследования, которые однозначно идентифицируют их для уникальных сценариев использования. При каталогизации неструктурированных данных важно убедиться, что метаданные могут следовать за данными, куда бы они ни перемещались, что позволит избежать необходимости повторного создания метаданных.

Копирование и перемещение неструктурированных данных в места для ИИ-анализа также требует много времени и средств, а из-за объема данных это может занимать от нескольких недель до нескольких месяцев. В результате вы захотите перемещать только те наборы данных, которые вам нужны, что еще больше подчеркивает необходимость обогащения и классификации метаданных.

Почему рабочие процессы ИИ ломают модель ETL

Помимо проблем с форматами, сама обработка данных с помощью ИИ принципиально отличается от традиционной аналитики. С ИИ рабочие процессы становятся итеративными и нелинейными.

Например, возможно вы хотите, чтобы Amazon Rekognition просматривал изображения и маркировал их, выполнял обнаружение персональных данных для поиска и исключения конфиденциальных данных, а затем отправлял данные в большую языковую модель (LLM), например Azure OpenAI, для дополнения чата. Здесь у вас есть три разных процесса ИИ, работающих с одними и теми же данными в разные моменты времени. Это создает сценарий «ИИ, снабжающий данными ИИ», в котором выходы одного процесса становятся входами для другого. Традиционная модель ETL просто не рассчитана на такой циклический процесс обогащения.

Кроме того, ИИ создает серьезные проблемы управления данными, которые отличаются от проблем традиционной аналитики. Обеспечение того, чтобы сотрудники случайно не передали конфиденциальные данные коммерческим (внешним) сервисам ИИ, — это одна задача, а ведение четких аудиторских записей о том, какие корпоративные данные были обработаны тем или иным сервисом ИИ, — другая. ETL не поддерживает эти требования к аудиту и проверке неструктурированных данных.

Наконец, человеческая проверка становится основным компонентом управления данными ИИ. Мы должны вести учет метаданных, которые были обогащены ИИ без проверки человеком, а не обогащены ИИ и проверены человеком.

Интеллектуальные рабочие процессы данных для ИИ

Современный подход к подготовке неструктурированных данных для ИИ требует переосмысления всего конвейера данных. Вместо того чтобы сразу перемещать данные, целесообразно сначала создать всеобъемлющий индекс метаданных, охватывающий все среды хранения. Это обеспечивает интеллектуальное курирование, которое определяет точное подмножество данных для обработки ИИ на основе содержания, контекста и бизнес-требований. Глобальный индекс метаданных должен быть разработан таким образом, чтобы сохранять метаданные и теги вне зависимости от места хранения данных, поэтому он не зависит от системы хранения.

Такой подход дает значительные преимущества. Рассмотрим реальный пример: организации потребовалось проанализировать 3 млн. документов на предмет специфического содержания изображений. При традиционном подходе ETL потребовалось бы скопировать все файлы в озеро данных перед обработкой. Копирование такого объема файлов не только отняло бы много времени, но и привело бы к ненужным задержкам в работе ИИ, а также к дополнительным расходам на ИИ и хранение данных. Сначала проиндексировав и оптимизировав набор данных для выявления всего лишь 10 тыс. релевантных изображений, эта организация сократила затраты на обработку на 97%.

Ключевые элементы интеллектуальных рабочих процессов с данными для ИИ включают:

  • Глобальное индексирование и курирование метаданных. Обнаружение и отбор релевантных данных перед их перемещением, интеграция с ИИ-процессорами по мере необходимости для быстрого анализа контента и маркировки.
  • Присвоение пользовательских меток. Позволяет конечным пользователям самостоятельно маркировать свои данные, поскольку они знают их лучше других.
  • Итеративное обогащение. Сохранение результатов в виде метаданных многократного использования, чтобы избежать избыточной обработки.
  • Встроенное управление. Автоматическое обнаружение конфиденциальной информации и ведение всестороннего аудита.

Эти рабочие процессы с неструктурированными данными поддерживают специализированные препроцессоры для различных типов данных: текстовые экстракторы для документов, службы распознавания для изображений и специализированные анализаторы для отраслевых данных. При этом на протяжении всего процесса сохраняются последовательность и контекст данных.

Современный подход к подготовке данных для ИИ

На пути к современной подготовке данных для ИИ необходимо сделать несколько шагов:

  • Составьте карту ландшафта неструктурированных данных. Поймите, какие типы данных у вас есть, где они хранятся и какова их потенциальная ценность для ИИ.
  • Сосредоточьтесь сначала на целевых сценариях использования. Начните с четко определенной ИИ-инициативы, а не пытайтесь сразу преобразовать всю подготовку данных.
  • Заложите в основу управление. С самого начала учитывайте требования конфиденциальности, безопасности и соответствия.
  • Измеряйте новые показатели. Отслеживайте, насколько эффективно ваш конвейер поддерживает различные сценарии использования ИИ, а не только эффективность перемещения данных.
  • Обеспечьте самообслуживание. Найдите способы, с помощью которых владельцы данных и специалисты по ИИ смогут находить, классифицировать и размечать нужные данные, тесно сотрудничая с командами ИТ-операций и инфраструктуры.

Поскольку ИИ становится центральным элементом бизнес-стратегии, организации, внедряющие интеллектуальные рабочие процессы с данными, получат значительные преимущества в плане оперативности, эффективности затрат и управления рисками. Вопрос не в том, нужен ли вашей организации новый подход к подготовке неструктурированных данных для ИИ, а в том, как быстро вы сможете его реализовать.