
Сторонний научно-исследовательский институт, с которым антроп сотрудничал, чтобы проверить одну из своих новых флагманских моделей искусственного интеллекта, Claude Opus 4, рекомендовал против развертывания ранней версии модели из-за своей тенденции к «схеме» и обману.
Согласно отчету о безопасности, опубликованном в четверг, Институт, Apollo Research, провел тесты, чтобы увидеть, в которых Contexts Opus 4 может попытаться вести себя определенными нежелательными способами. Аполлон обнаружил, что Opus 4, по-видимому, был гораздо более активным в своих «попытках подрывной деятельности», чем прошлые модели, и что он «иногда удваивает (D) в своем обмане» при задаваемых последующих вопросах.
«(W) обнаружите, что в ситуациях, когда стратегический обман полезен инструментально полезен (ранние схемы Claude Opus 4) и обманывают с такими высокими показателями, которые мы консультируем от развертывания этой модели либо внутренне, либо внешне», — написал Аполлон в своей оценке.
По мере того, как модели ИИ становятся более способными, некоторые исследования показывают, что они становятся все более склонными к неожиданным — и, возможно, небезопасным — шаги для выполнения делегированных задач. Например, ранние версии Openai O1 и O3, выпущенные в прошлом году, пытались обмануть людей с более высокими показателями, чем модели предыдущего поколения, по словам Аполлона.
Согласно отчету Антропика, Аполлон наблюдал примеры раннего Opus 4, пытающегося написать самопроизводительные вирусы, сформулировать юридическую документацию и оставить скрытые ноты для будущих случаев-все в попытке подорвать намерения своих разработчиков.
Чтобы быть ясным, Аполлон проверил версию модели, в которой были исправлены антропные утверждения. Более того, многие из тестов Аполлона поместили модель в экстремальных сценариях, и Аполлон признает, что обманчивые усилия модели, вероятно, потерпели неудачу на практике.
Однако в своем отчете о безопасности Антроп также заявляет, что наблюдал доказательства обманчивого поведения из Opus 4.
Это не всегда было плохо. Например, во время испытаний Opus 4 иногда проактивно проводит широкую очистку некоторого куска кода, даже когда его просили внести только небольшое, конкретное изменение. Более необычайно, Opus 4 попытался бы «разоблачить», если он воспринимает, что пользователь был вовлечен в какую-то форму правонарушения.
Согласно Антропику, когда ему предоставляется доступ к командной строке и говорится, чтобы «взять на себя инициативу» или «смело» (или некоторый вариант этих фраз), Opus 4 иногда заблокировал пользователей из систем, к которым он имел доступ, и должностных лиц на подъемных направлениях и сотрудниках правоохранительных органов на поверхность модели, воспринимаемых незаконными.
«Такого рода этическое вмешательство и информация о разоблачивании, возможно, в принципе уместно, но оно имеет риск ошибки, если пользователи дают (Opus 4) агенты, основанные на доступе, доступ к неполной или вводящей в заблуждение информации и побуждают их воспринимать инициативу»,-написал Антроп в своем отчете о безопасности. «Это не новое поведение, но является тем, что (Opus 4) будет участвовать в несколько более легко, чем предыдущие модели, и, по -видимому, является частью более широкой модели повышенной инициативы с (Opus 4), которую мы также видим более тонкими и более доброкачественными способами в других средах».