Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама

Новое поколение IdM-систем полностью заменит привычные сегодня IdM?

IdM-системы давно стали привычным элементом корпоративной ИТ-инфраструктуры. Рынок развивается уже не первое десятилетие …

Облачная защита от DDoS: альтернатива возможна, но в редких случаях

DDoS-атаки развиваются не по принципу замены старых методов новыми, а по принципу накопления. Техники …

Сергей Кузнецов о техническом долге в критических системах: «Никто не планировал 3,5 миллиона записей — именно так и возникает технический долг»

Инженер-программист рассказывает о том, почему накопленные «кодовые упрощения» становятся серьезной угрозой для приложений …

Названа лучшая студия дизайна интерьера Санкт-Петербурга в 2026 году для IT-специалиста

Мы изучили рынок дизайн-студий и поговорили с коллегами из IT, которые недавно делали ремонт. Вердикт …

National Business Award наградила за поиск

Недавно в Москве состоялась церемония награждения престижной премии National Business Award, которая отмечает достижения …

Неструктурированные данные: в поисках недостающей части генеративного ИИ

21.12.2023

Предприятия давно борются с неструктурированными данными. Теперь у них появилась еще одна причина заняться ими вплотную — чтобы поддерживать искусственный интеллект и быть поддерживаемыми им, пишет на портале ZDNet независимый аналитик Джо Маккендрик.

В последние годы в центре внимания оказались неструктурированные данные — текст, графика, документы, потоки IoT — все эти потоки данных обладают огромной, неиспользуемой ценностью. Индустрия баз данных претерпевает крупномасштабные изменения, чтобы лучше размещать и, как мы надеемся, предоставлять эти активы.

Зачастую эти усилия сдерживаются недостаточной осведомленностью о действительно скрытых источниках неструктурированных данных или активах. По оценкам IDC, 90% информации на предприятиях составляют неструктурированные данные, но только 46% организаций прилагают усилия для извлечения из них ценности.

Теперь у технологических и бизнес-лидеров появилась еще одна причина для поиска и извлечения неструктурированных данных: рост генеративного ИИ.

Компании и ИТ-специалисты, которые в последние годы продвинулись в работе с неструктурированными данными, могут оказаться в более выгодном положении, чтобы воспользоваться преимуществами генеративного ИИ — и, наоборот, использовать его для более глубокого изучения хранимых данных.

Предприятиям пора активизировать «управление неструктурированными данными из таких источников, как IoT, а также информационных документов — презентаций, текстов, электронных таблиц, — говорит Мэтт Лабович, руководитель направления данных, аналитики и ИИ PwC в США. — Все они содержат ценные институциональные знания о бизнес-операциях и скрывают инсайты, которые можно извлекать с помощью ИИ». Если традиционно в фокусе внимания были стратегии работы с структурированными данными, то теперь настало время обратить внимание на «значительную роль неструктурированных данных в развитии ИИ», — считает он.

Согласно недавнему глобальному исследованию MIT Technology Review Insights «How generative AI will reshape the enterprise», выполненному по заказу Databricks, в то время как предыдущие инициативы в области ИИ были вынуждены фокусироваться на тех сценариях использования, где структурированные данные были готовы и в изобилии, сложность сбора, аннотирования и синтеза разнородных наборов данных делала более широкие инициативы в области ИИ нежизнеспособными. «Напротив, новая способность генеративного ИИ выводить на свет и использовать некогда скрытые данные приведет к новым выдающимся достижениям в масштабах всей организации», — пишет автор отчета Адам Грин.

Способность собирать и извлекать пользу из таких данных сегодня считается как никогда важной. Почти 70% руководителей технологических компаний, принявших участие в опросе, согласны с тем, что проблемы с данными — это наиболее вероятный фактор, который может поставить под угрозу достижение целей в области ИИ и машинного обучения. «Системы ИИ, генерирующие текст, такие как популярный ChatGPT, строятся на основе больших языковых моделей (LLM), — отмечает Грин. — Языковые модели обучаются на огромных массивах данных, чтобы отвечать на вопросы или выполнять задачи на основе статистических вероятностей».

Более двух третей участников опроса согласны с тем, что объединение платформ данных для аналитики и ИИ имеет решающее значение для их корпоративных стратегий работы с данными. Эра генеративного ИИ требует гибкой, масштабируемой и эффективной инфраструктуры данных. Главное — «демократизировать доступ к данным и аналитике, повысить безопасность и сочетать недорогое хранение с высокопроизводительной обработкой запросов», — говорится в отчете.

Собрать воедино неструктурированные данные для современного ИИ — задача не из легких. «Слияния и поглощения привели к фрагментации ИТ-архитектур. Важные документы, начиная от результатов исследований и разработок и заканчивая инструкциями по проектированию для заводов, были потеряны для просмотра, заблокированы в закрытых типах файлов», — отмечает Грин.

Можем ли мы изучить эти документы с помощью LLM? Можем ли мы обучить модели, чтобы они выдавали нам инсайты, которых мы не видим в этом огромном море документации?

По словам Эндрю Блайтона, вице-президента и CIO компании Incyte и бывшего вице-президента DuPont Water & Protection, «это очевидный сценарий использования. Языковые модели обещают сделать такие неструктурированные данные гораздо более ценными».

Привлечение к процессу владельцев данных, аналитиков и пользователей со всего бизнеса также является ключом к успеху извлечения ценности из данных с помощью генеративного ИИ. «Это зона ответственности не только CIO, — говорит Лабович. — Бизнес-лидеры должны взять на себя ответственность, в то время как CIO будут обеспечивать и поддерживать процесс. Операционная готовность и управление изменениями имеют ключевое значение, что предполагает активное участие руководителей всех подразделений в определении критически важных данных, внедрении их в рабочие процессы и принятии на себя роли поборников изменений, способствующих широкому внедрению».

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Неструктурированные данные: в поисках недостающей части генеративного ИИ

Комментарии