Предприятия давно борются с неструктурированными данными. Теперь у них появилась еще одна причина заняться ими вплотную — чтобы поддерживать искусственный интеллект и быть поддерживаемыми им, пишет на портале ZDNet независимый аналитик Джо Маккендрик.

В последние годы в центре внимания оказались неструктурированные данные — текст, графика, документы, потоки IoT — все эти потоки данных обладают огромной, неиспользуемой ценностью. Индустрия баз данных претерпевает крупномасштабные изменения, чтобы лучше размещать и, как мы надеемся, предоставлять эти активы.

Зачастую эти усилия сдерживаются недостаточной осведомленностью о действительно скрытых источниках неструктурированных данных или активах. По оценкам IDC, 90% информации на предприятиях составляют неструктурированные данные, но только 46% организаций прилагают усилия для извлечения из них ценности.

Теперь у технологических и бизнес-лидеров появилась еще одна причина для поиска и извлечения неструктурированных данных: рост генеративного ИИ.

Компании и ИТ-специалисты, которые в последние годы продвинулись в работе с неструктурированными данными, могут оказаться в более выгодном положении, чтобы воспользоваться преимуществами генеративного ИИ — и, наоборот, использовать его для более глубокого изучения хранимых данных.

Предприятиям пора активизировать «управление неструктурированными данными из таких источников, как IoT, а также информационных документов — презентаций, текстов, электронных таблиц, — говорит Мэтт Лабович, руководитель направления данных, аналитики и ИИ PwC в США. — Все они содержат ценные институциональные знания о бизнес-операциях и скрывают инсайты, которые можно извлекать с помощью ИИ». Если традиционно в фокусе внимания были стратегии работы с структурированными данными, то теперь настало время обратить внимание на «значительную роль неструктурированных данных в развитии ИИ», — считает он.

Согласно недавнему глобальному исследованию MIT Technology Review Insights «How generative AI will reshape the enterprise», выполненному по заказу Databricks, в то время как предыдущие инициативы в области ИИ были вынуждены фокусироваться на тех сценариях использования, где структурированные данные были готовы и в изобилии, сложность сбора, аннотирования и синтеза разнородных наборов данных делала более широкие инициативы в области ИИ нежизнеспособными. «Напротив, новая способность генеративного ИИ выводить на свет и использовать некогда скрытые данные приведет к новым выдающимся достижениям в масштабах всей организации», — пишет автор отчета Адам Грин.

Способность собирать и извлекать пользу из таких данных сегодня считается как никогда важной. Почти 70% руководителей технологических компаний, принявших участие в опросе, согласны с тем, что проблемы с данными — это наиболее вероятный фактор, который может поставить под угрозу достижение целей в области ИИ и машинного обучения. «Системы ИИ, генерирующие текст, такие как популярный ChatGPT, строятся на основе больших языковых моделей (LLM), — отмечает Грин. — Языковые модели обучаются на огромных массивах данных, чтобы отвечать на вопросы или выполнять задачи на основе статистических вероятностей».

Более двух третей участников опроса согласны с тем, что объединение платформ данных для аналитики и ИИ имеет решающее значение для их корпоративных стратегий работы с данными. Эра генеративного ИИ требует гибкой, масштабируемой и эффективной инфраструктуры данных. Главное — «демократизировать доступ к данным и аналитике, повысить безопасность и сочетать недорогое хранение с высокопроизводительной обработкой запросов», — говорится в отчете.

Собрать воедино неструктурированные данные для современного ИИ — задача не из легких. «Слияния и поглощения привели к фрагментации ИТ-архитектур. Важные документы, начиная от результатов исследований и разработок и заканчивая инструкциями по проектированию для заводов, были потеряны для просмотра, заблокированы в закрытых типах файлов», — отмечает Грин.

Можем ли мы изучить эти документы с помощью LLM? Можем ли мы обучить модели, чтобы они выдавали нам инсайты, которых мы не видим в этом огромном море документации?

По словам Эндрю Блайтона, вице-президента и CIO компании Incyte и бывшего вице-президента DuPont Water & Protection, «это очевидный сценарий использования. Языковые модели обещают сделать такие неструктурированные данные гораздо более ценными».

Привлечение к процессу владельцев данных, аналитиков и пользователей со всего бизнеса также является ключом к успеху извлечения ценности из данных с помощью генеративного ИИ. «Это зона ответственности не только CIO, — говорит Лабович. — Бизнес-лидеры должны взять на себя ответственность, в то время как CIO будут обеспечивать и поддерживать процесс. Операционная готовность и управление изменениями имеют ключевое значение, что предполагает активное участие руководителей всех подразделений в определении критически важных данных, внедрении их в рабочие процессы и принятии на себя роли поборников изменений, способствующих широкому внедрению».