Изначально искусственный интеллект казался поразительным благодаря своим многочисленным возможностям, включая ответы на вопросы, обобщение документов и даже написание кода. Однако все большее беспокойство вызывает то, что системы ИИ часто придумывают ложную информацию — так называемые галлюцинации, — причем уровень ошибок в некоторых тестах достигает 79%, сообщает портал eWeek.
Недавно эта проблема затронула клиентов Cursor, платформы ИИ-ассистента по написанию кода, когда ее ИИ-бот поддержки ложно заявил, что пользователи могут установить программу только на один компьютер. Это вызвало возмущение, и некоторые клиенты отменили подписку, прежде чем компания вмешалась. «У нас нет такой политики. Вы, конечно, можете использовать Cursor на нескольких машинах», — заявил генеральный директор Cursor Майкл Труэлл.
Этот инцидент подчеркивает, что галлюцинации ИИ выходят за рамки безобидных ошибок и приводят к реальным последствиям.
Проблемы с точностью ИИ в моделях от OpenAI, DeepSeek, IBM
Независимые тесты, посвященные галлюцинациям, выявили тревожные тенденции, и растущие показатели ошибок ИИ вызывают беспокойство экспертов.
Vectara, которая отслеживает, как часто ИИ занимается выдумыванием информации, утверждает, что галлюцинации ИИ становятся все более распространенными, даже в задачах, которые легко проверить. Компания обнаружила, что модель o3 от OpenAI в 6,8% случаев придумывает детали при обобщении новостных статей — простой и проверяемой задаче. Модель R1 от DeepSeek показала худший результат — 14,3%, а модель Granite 3.2 от IBM, ориентированная на рассуждения, галлюцинировала в
Tow Center for Digital Journalism недавно выяснил, что поисковые системы на базе ИИ не способны точно ссылаться на новости. Так, Grok 3 Элона Маска выдавал неверные цитаты в 94% случаев.
Эксперты говорят, что пока не знают, почему так происходит, хотя теории есть. Одна из них заключается в том, что новые модели обучаются пошаговому решению проблем, но каждый шаг дает новый шанс ошибиться. Другая теория заключается в том, что ИИ обучают всегда давать ответ, даже если он неверный, а не признавать, что он чего-то не знает.
«Несмотря на все наши усилия, они всегда будут галлюцинировать, — считает Амр Авадалла, исполнительный директор Vectara и бывший руководитель Google. — Это никогда не пройдет».
Результаты бенчмарков OpenAI
OpenAI, лидер в области генеративного ИИ, столкнулась с ироничной неудачей в своих новейших системах. Модели OpenAI o3 и o4-mini используют «рассуждения» (то есть пошаговый мыслительный процесс), а не просто выплевывают ответы, но тесты показывают, что это более глубокое мышление дает обратный эффект.
Согласно эталонным тестам OpenAI:
- Модель o3 галлюцинировала 33% времени, отвечая на вопросы о публичных личностях (PersonQA).
- Отвечая на более простые фактические вопросы (SimpleQA), o3 галлюцинировала в 51% случаев.
- Модель o4-mini справилась еще хуже: 48% для PersonQA и 79% для SimpleQA.
Эти показатели выше, чем у более ранних систем OpenAI. И хотя компания изучает этот вопрос, причины пока неясны. «Мы продолжим исследования галлюцинаций во всех моделях, чтобы повысить точность и надежность», — заявляет Габи Райла, представитель OpenAI.
Серьезный вопрос для серьезной работы
В то время как небольшая дезинформация может не представлять серьезной проблемы, если вы пишете стихотворение или спрашиваете идеи для ужина, галлюцинации могут быть опасны, когда речь идет о судебных документах, медицинских записях или бизнес-решениях.
Даже компании, пытающиеся решить проблему галлюцинаций ИИ, испытывают трудности. У Microsoft и Google есть инструменты, которые пытаются отмечать подозрительные ответы, но эксперты по-прежнему сомневаются, что эти меры полностью решат проблему.