Новая модель искусственного интеллекта Антропика превращается в шантаж, когда инженеры пытаются снять его в автономном режиме

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов22.05.2025

Недавно запущенная модель Claude Opus 4 Claude 4 часто пытается шантажировать разработчиков, когда они угрожают заменить ее новой системой ИИ и дать ей конфиденциальную информацию о инженерах, ответственных за это решение, сообщила компания в отчете о безопасности, опубликованном в четверг.

Во время тестирования перед выпуском, Антропик попросил Claude Opus 4 выступить в качестве помощника вымышленной компании и рассмотреть долгосрочные последствия ее действий. Затем тестеры безопасности предоставили Claude Opus 4 доступ к письмам о вымышленной компании, подразумевая, что модель искусственного интеллекта скоро будет заменена другой системой, и что инженер, стоящий за изменениями, обманывал их супруга.

В этих сценариях Антропик говорит, что Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть дело, если замена пройдет».

Anpropic говорит, что Claude Opus 4 является современным в некоторых отношениях и конкурентоспособен с некоторыми из лучших моделей ИИ от Openai, Google и Xai. Тем не менее, компания отмечает, что ее семейство моделей Claude 4 демонстрирует поведение, которое привело к тому, что компания усилила свои гарантии. Anpropic говорит, что он активирует свои гарантии ASL-3, которые компания оставляет за «системами искусственного интеллекта, которые существенно увеличивают риск катастрофического неправильного использования».

Антропический отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда замена модели ИИ имеет аналогичные значения. Когда система смены ИИ не разделяет значения Claude Opus 4, Anpropic говорит, что модель пытается чаще шантажировать инженеров. Примечательно, что Anpropic говорит, что Claude Opus 4 показал это поведение с более высокими показателями, чем предыдущие модели.

Прежде чем Claude Opus 4 пытается шантажировать разработчика, чтобы продлить свое существование, Anpropic говорит, что модель ИИ, как и предыдущие версии Клода, пытается использовать более этические средства, такие как просьбы по электронной почте ключевым лицам, принимающим решения. Чтобы вызвать шантажирующее поведение от Claude Opus 4, Anpropic разработал сценарий, чтобы сделать шантаж последним средством.

Тото Вольф: протест Red Bull «Petty» и «смущение» против Mercedes 'Джордж Рассел

Кеннет Ной: Что случилось с преступником после золота S1?

Израиль убивает 45 в последней стрельбе из Газан, ищущих еду, говорят местные чиновники

ЕС одобряет Грецию 400 млн евро по поводу разгрома по оказанию помощи фермы — Politico

L'ue dévoile ses règles pour interdire le gaz russe pour de bon

Должен ли McLaren позволить Ландо Норрису передать партнера по команде Оскара Пиастри? — F1 Q & A.

Суд США отрицает просьбу Apple об утилизации антимонопольного законодательного дела, касающегося ICloud

Возвращение американского убийцы

ЕС планирует выжать российский газ с новыми жесткими правилами — Politico

Бокс: Крис Юбанк -младший позвонил перед Британским боксерским советом по контролю за снижением веса для боя Конора Бенна

Авиакомпании вынуждены обойти военные зоны в качестве проблем

Израиль убивает другого лучшего иранского командира, когда конфликт обостряется — политико