Институт безопасности консультировал не выпустить раннюю версию модели ADPUS от Claude Opus 4

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов22.05.2025

Сторонний научно-исследовательский институт, с которым антроп сотрудничал, чтобы проверить одну из своих новых флагманских моделей искусственного интеллекта, Claude Opus 4, рекомендовал против развертывания ранней версии модели из-за своей тенденции к «схеме» и обману.

Согласно отчету о безопасности, опубликованном в четверг, Институт, Apollo Research, провел тесты, чтобы увидеть, в которых Contexts Opus 4 может попытаться вести себя определенными нежелательными способами. Аполлон обнаружил, что Opus 4, по-видимому, был гораздо более активным в своих «попытках подрывной деятельности», чем прошлые модели, и что он «иногда удваивает (D) в своем обмане» при задаваемых последующих вопросах.

«(W) обнаружите, что в ситуациях, когда стратегический обман полезен инструментально полезен (ранние схемы Claude Opus 4) и обманывают с такими высокими показателями, которые мы консультируем от развертывания этой модели либо внутренне, либо внешне», — написал Аполлон в своей оценке.

По мере того, как модели ИИ становятся более способными, некоторые исследования показывают, что они становятся все более склонными к неожиданным — и, возможно, небезопасным — шаги для выполнения делегированных задач. Например, ранние версии Openai O1 и O3, выпущенные в прошлом году, пытались обмануть людей с более высокими показателями, чем модели предыдущего поколения, по словам Аполлона.

Согласно отчету Антропика, Аполлон наблюдал примеры раннего Opus 4, пытающегося написать самопроизводительные вирусы, сформулировать юридическую документацию и оставить скрытые ноты для будущих случаев-все в попытке подорвать намерения своих разработчиков.

Чтобы быть ясным, Аполлон проверил версию модели, в которой были исправлены антропные утверждения. Более того, многие из тестов Аполлона поместили модель в экстремальных сценариях, и Аполлон признает, что обманчивые усилия модели, вероятно, потерпели неудачу на практике.

Однако в своем отчете о безопасности Антроп также заявляет, что наблюдал доказательства обманчивого поведения из Opus 4.

Это не всегда было плохо. Например, во время испытаний Opus 4 иногда проактивно проводит широкую очистку некоторого куска кода, даже когда его просили внести только небольшое, конкретное изменение. Более необычайно, Opus 4 попытался бы «разоблачить», если он воспринимает, что пользователь был вовлечен в какую-то форму правонарушения.

Согласно Антропику, когда ему предоставляется доступ к командной строке и говорится, чтобы «взять на себя инициативу» или «смело» (или некоторый вариант этих фраз), Opus 4 иногда заблокировал пользователей из систем, к которым он имел доступ, и должностных лиц на подъемных направлениях и сотрудниках правоохранительных органов на поверхность модели, воспринимаемых незаконными.

«Такого рода этическое вмешательство и информация о разоблачивании, возможно, в принципе уместно, но оно имеет риск ошибки, если пользователи дают (Opus 4) агенты, основанные на доступе, доступ к неполной или вводящей в заблуждение информации и побуждают их воспринимать инициативу»,-написал Антроп в своем отчете о безопасности. «Это не новое поведение, но является тем, что (Opus 4) будет участвовать в несколько более легко, чем предыдущие модели, и, по -видимому, является частью более широкой модели повышенной инициативы с (Opus 4), которую мы также видим более тонкими и более доброкачественными способами в других средах».

Хакеры доказывают, что системы проверки возраста на сайтах порнографии можно обойти за считанные секунды | Наука, климат и технические новости

Турция сталкивается с «поистине большой катастрофой», предупреждает Эрдогана на фоне бушующих лесных пожаров и температуры душных по всей Европе | Мировые новости

Хакеры доказывают, что системы проверки возраста на сайтах порнографии можно обойти за считанные секунды | Наука, климат и технические новости

Тесла хочет принести роботаксис в Сан -Франциско. Вот что стоит на пути.

Кейтлин Кларк снова покинет запись

Лукас Пакета: FA, чтобы вынести вердикт в случае ставки в Вест Хэме

Что такое чай — приложение только для женщин с миллионами пользователей? | Наука, климат и технические новости

Jahanvi Sardana 'Jahanvi Sardana разделяет правду о TAM и на том, на чем должны сосредоточиться на основателях.

World Matchplay 2025: Люк Литтлер достигает последних четырех, Джош Рок бьет Гервин Прайс

Индия запрещает потоковые приложения, о которых вы никогда не слышали — но миллионы смотрят

Евро 2025: Англия, чтобы принести его домой? Окончательный прогноз Рэйчел Браун-Финнис

Для бывших прокуроров все в интервью на отделе юстиции с Ghislaine Maxwell выглядело неортодоксальным

Футбольные сплетни: Ларсен, Уилсон, Ливраменто, Диас, Энтони, Шоу, Мартинес, Йильдиз, Дибл, Лекомте, Пайсао