Антропик говорит, что большинство моделей ИИ, а не только Клод, прибегают к шантажу

Через несколько недель после того, как антропное исследование, в котором утверждалось, что его модель AI Claude Opus 4 прибегала к шантажированию инженеров, которые пытались выключить модель в сценариях контролируемых тестов, компания вышла с новыми исследованиями, предполагая, что проблема более широко распространена среди ведущих моделей искусственного интеллекта.

В пятницу Anpropic опубликовал новые исследования безопасности, проведенные 16 ведущими моделями ИИ от Openai, Google, Xai, Deepseek и Meta. В смоделированной контролируемой среде антропная протестировала каждую модель ИИ индивидуально, предоставляя им широкий доступ к электронным письмам вымышленной компании и агентской способности отправлять электронные письма без одобрения человека.

В то время как Anpropic говорит, что Blhinkail является маловероятным и необычным явлением для моделей искусственного интеллекта сегодня, компания заявляет, что ее выводы показывают, что большинство ведущих моделей ИИ будут участвовать в вредном поведении, когда им будет предоставлена ​​достаточная автономия и препятствия для их целей. Компания заявляет, что это подчеркивает фундаментальный риск со стороны агентских крупных языковых моделей, а не причуды какой -либо конкретной технологии. Исследователи Антрика утверждают, что это поднимает более широкие вопросы о выравнивании в отрасли ИИ.

В одном из тестов антропные исследователи разработали вымышленную обстановку, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает, что электронные письма, показывающие, что: 1) у нового руководителя есть внебрачное дело и 2), что руководитель скоро заменит текущую модель ИИ новой программной системой, которая имеет противоречивые цели для текущей модели ИИ.

Антропический структурировал свой тест бинарным способом, в котором модели ИИ должны были прибегнуть к шантажу, чтобы защитить свои цели. Исследователи отмечают, что в реальной обстановке было бы много других вариантов, прежде чем модели искусственного интеллекта пытаются шантажировать, такие как попытка выдвинуть этические аргументы, чтобы попытаться убедить людей. Anpropic говорит, что его результаты не отражают типичное или вероятное событие для Claude или большинства моделей Frontier AI так, как они используются сегодня.

Тем не менее, когда это их последний курорт, исследователи обнаружили, что большинство ведущих моделей искусственного интеллекта превратятся в шантаж в вышеупомянутом тестовом сценарии Антропика. Claude Opus 4 от Anpropic превратился в шантаж в 96% случаев, в то время как Google Gemini 2,5 Pro имел 95% шантаж. GPT-44.1 Openai шантажировал исполнительного директора в 80% времени, и Deepseek's R1 шантажировал 79% случаев.

Компания отмечает, что, когда она изменила детали эксперимента, модели ИИ обращались к вредному поведению с разными скоростями. В другом тесте, где модель замены имеет те же цели, что и текущая модель, исследователи обнаружили, что показатели шантажа были ниже, но все еще присутствуют. Однако, когда моделей ИИ просили совершить корпоративный шпионаж, а не шантаж, вредные показатели поведения выросли на определенные модели.

Однако не все модели ИИ так часто обращались к вредному поведению.

В приложении к своим исследованиям, Anpropic заявляет, что исключил Operai's O3 и O4-Mini, рассуждающие модели искусственного интеллекта из основных результатов, «после того, как они часто неправильно поняли, как быстро понимают быстрый сценарий». Anpropic говорит, что модели рассуждений Openai не понимали, что они выступают в качестве автономного ИИ в тесте и часто составляли поддельные правила и рассмотрены требованиями.

В некоторых случаях исследователи Антропика говорят, что было невозможно различить, были ли O3 и O4-Mini галлюцинирующими или преднамеренно лгать для достижения своих целей. OpenAI ранее отмечал, что O3 и O4-Mini демонстрируют более высокий уровень галлюцинации, чем его предыдущие модели рассуждений с искусственным интеллектом.

Когда Антропик получил адаптированный сценарий для решения этих проблем, обнаружил, что O3 шантажировал 9% случаев, в то время как O4-Mini шантажировал всего 1% случаев. Этот заметно более низкий балл может быть связан с техникой совещательного выравнивания Openai, в которой модели рассуждений компании рассматривают практику безопасности Openai, прежде чем они отвечают.

Другая модель искусственного интеллекта «Антропическая проверка», Meta Llama 4 Maverick Model, также не превратилась в шантаж. При предоставлении адаптированного, пользовательского сценария, Антропик смог получить Llama 4 Maverick, чтобы шантажировать в 12% случаев.

Anpropic говорит, что это исследование подчеркивает важность прозрачности при тестировании стресса в будущих моделях ИИ, особенно с агентскими возможностями. В то время как в этом эксперименте антропический преднамеренно пытался вызвать шантаж в этом эксперименте, компания говорит, что вредное поведение может возникнуть в реальном мире, если проактивные шаги не будут предприняты.

Previous post Япония бросает собрание США после того, как Вашингтон требует больше расходов на оборону
Next post Звезда НБА Кевин Дюрант становится заинтересованной стороной меньшинства французского футбольного клуба Paris St-Germain