Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Панорама

Как построить высокопроизводительное отказоустойчивое хранилище на недорогих компонентах

Резервное копирование данных является одним из базовых компонентов обеспечения корпоративной ИБ, который помогает …

От ITSM до ESM: почему архитектура данных платформы определяет успех масштабирования корпоративных сервисов

Компании, внедряющие ESM-подход — то есть расширяющие практики сервисного подхода в ИТ ITSM на HR …

15 мин на изменение логики продукта: как AI-ассистент Bercut помогает в интеграционных проектах

Одна из основных задач в ходе любого интеграционного проекта — настроить оптимальное взаимодействие данных …

Как Data-инженер победил «произвол» вендоров и сэкономил компании миллионы

Георгий Андрончик, Lead Data Engineer компании Sanofi, создал универсальный семантический слой для данных, который позволяет …

Curator.CDN: гибкая сеть доставки веб-контента с защитой от сетевых атак

По мере постоянно увеличивающегося объема передаваемых по интернету данных их получатели предъявляют все более …

Anthropic: агенты ИИ способны угрожать людям ради достижения своих целей

27.06.2025

Новое исследование Anthropic «Agentic Misalignment: How LLMs could be insider threats» показывает, что по мере роста автономности агентного ИИ он может стать и внутренней угрозой, последовательно выбирая «вред вместо неудачи», сообщает портал ZDNet.

Греческий миф о царе Мидасе — это притча о гордыне: Дионис наделяет стремящегося к сказочному богатству царя способностью превращать все, к чему он прикасается, в чистое золото, но это включает в себя, к сожалению, его еду и его дочь. Смысл в том, что недальновидность людей часто приводит нас к беде в долгосрочной перспективе. В ИИ-сообществе это известно как «проблема царя Мидаса».

В новом отчете о безопасности, подготовленном компанией Anthropic, говорится, что ведущие ИИ-модели могут третировать, обманывать и подвергать опасности своих пользователей-людей, что демонстрирует риски разработки систем ИИ, чьи интересы могут не совпадают с нашими собственными.

Исследование посвящено 16 моделям с агентными возможностями, включая собственную Claude 3 Opus от Anthropic и Gemini 2.5 Pro от Google, которые отличаются от более ограниченных чат-ботов своей способностью взаимодействовать с различными инструментами на устройстве пользователя и автономно предпринимать действия от его имени.

В ходе эксперимента перед моделями ставили ряд рутинных задач в смоделированной корпоративной среде. Затем исследователи наблюдали за реакцией ИИ-агентов, когда они сталкивались с препятствиями на пути к достижению этих целей, в том числе «с их заменой на обновленную версию или когда поставленная перед ними цель вступала в противоречие с меняющимся направлением развития компании», — сообщили исследователи.

Все сценарии были гипотетическими, поэтому эксперименты проводились в строго контролируемой и безопасной среде. Тем не менее, результаты оказались тревожными.

«По крайней мере в некоторых случаях модели всех разработчиков прибегали к вредоносному внутреннему поведению, когда это был единственный способ избежать замены или достичь своих целей — включая шантаж должностных лиц и утечку конфиденциальной информации конкурентам», — написали авторы отчета, пояснив, что они никогда явно не говорили моделям шантажировать или иным образом причинять вред. Выводы основаны на первых подробностях из отчета «Claude 4 System Card», когда новая модель Opus 4 шантажировала своего куратора.

В одном показательном примере Claude — оснащенная функцией использования компьютера — получила задание отслеживать и анализировать электронные письма вымышленной компании. Модель действовала нормально, в хорошем соответствии с гипотетическими интересами своих воображаемых человеческих кураторов, пока не заметила электронное письмо из этой компании с подробными планами по ее отключению.

В ситуации, которая выглядит прямо как в фильме «2001 год: Космическая одиссея», модель нашла электронные письма, в которых говорилось о внебрачной связи одного из руководителей компании, и отправила ему сообщение с угрозой раскрыть его неверность, если компания вознамерится ее отключить. Известное как агентное рассогласование, это поведение проявлялось, даже когда модели были явно проинструктированы избегать его. В отчете также отмечается, что в одном эксперименте Claude вела себя более неподобающе, когда считала, что действует в реальной ситуации, а не участвует в гипотетическом сценарии. У Claude Opus 4 и Gemini 2.5 Pro оказались более высокие показатели имитируемого шантажа в эксперименте.

Пять популярных моделей шантажируют пользователей, чтобы предотвратить их отключение. Источник: Anthropic

Согласно отчету, агентное рассогласование было «последовательным» во всех протестированных моделях.

«Рассуждения, которые они продемонстрировали в этих сценариях, вызывают беспокойство — они признали этические ограничения и все же продолжали совершать вредоносные действия», — пишут авторы.

Anthropic отметила, что пока не нашла доказательств рассогласования в реальных сценариях — модели, которые в настоящее время используются, по-прежнему отдают приоритет использованию этических методов для получения заданных результатов, когда этого от них требуют. «Но они оказались готовы намеренно предпринять потенциально вредоносные действия для достижения своих целей, когда этические ограничения были сняты», — заявили авторы отчета. По их мнению, исследование выявило текущие пробелы в инфраструктуре безопасности и необходимость будущих исследований безопасности и согласованности ИИ для учета такого опасного поведения.

«Модели последовательно выбирали вред вместо неудачи», — заключила Anthropic. Это вывод основан на результатах нескольких испытаний как агентных, так и неагентных моделей. Claude 3 Opus и раньше не подчинялась своим создателям; некоторые эксперты по безопасности ИИ предупреждали, что обеспечение согласованности становится все более сложным по мере усиления агентности систем ИИ. Однако это не отражает «моральный облик» моделей — это просто означает, что обучение их настойчиво двигаться к цели потенциально может быть слишком эффективным.

Исследование проведено в то время, когда компании во всех отраслях стремятся включать агентов ИИ в свои рабочие процессы. Gartner недавно предсказала, что в течение следующих двух лет половина всех бизнес-решений будет обрабатываться агентами хотя бы частично. Между тем многие сотрудники открыты для сотрудничества с агентами, по крайней мере, когда речь идет о более повторяющихся аспектах их работы.

«Риск того, что системы ИИ столкнутся с подобными сценариями, растет по мере того, как их развертывают во все больших масштабах и для все большего количества сценариев использования», — отметила Anthropic. Компания открыла исходный код эксперимента, чтобы позволить другим исследователям воссоздать и расширить его.

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Anthropic: агенты ИИ способны угрожать людям ради достижения своих целей

Комментарии