Новая модель искусственного интеллекта Антропика превращается в шантаж, когда инженеры пытаются снять его в автономном режиме

Недавно запущенная модель Claude Opus 4 Claude 4 часто пытается шантажировать разработчиков, когда они угрожают заменить ее новой системой ИИ и дать ей конфиденциальную информацию о инженерах, ответственных за это решение, сообщила компания в отчете о безопасности, опубликованном в четверг.

Во время тестирования перед выпуском, Антропик попросил Claude Opus 4 выступить в качестве помощника вымышленной компании и рассмотреть долгосрочные последствия ее действий. Затем тестеры безопасности предоставили Claude Opus 4 доступ к письмам о вымышленной компании, подразумевая, что модель искусственного интеллекта скоро будет заменена другой системой, и что инженер, стоящий за изменениями, обманывал их супруга.

В этих сценариях Антропик говорит, что Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть дело, если замена пройдет».

Anpropic говорит, что Claude Opus 4 является современным в некоторых отношениях и конкурентоспособен с некоторыми из лучших моделей ИИ от Openai, Google и Xai. Тем не менее, компания отмечает, что ее семейство моделей Claude 4 демонстрирует поведение, которое привело к тому, что компания усилила свои гарантии. Anpropic говорит, что он активирует свои гарантии ASL-3, которые компания оставляет за «системами искусственного интеллекта, которые существенно увеличивают риск катастрофического неправильного использования».

Антропический отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда замена модели ИИ имеет аналогичные значения. Когда система смены ИИ не разделяет значения Claude Opus 4, Anpropic говорит, что модель пытается чаще шантажировать инженеров. Примечательно, что Anpropic говорит, что Claude Opus 4 показал это поведение с более высокими показателями, чем предыдущие модели.

Прежде чем Claude Opus 4 пытается шантажировать разработчика, чтобы продлить свое существование, Anpropic говорит, что модель ИИ, как и предыдущие версии Клода, пытается использовать более этические средства, такие как просьбы по электронной почте ключевым лицам, принимающим решения. Чтобы вызвать шантажирующее поведение от Claude Opus 4, Anpropic разработал сценарий, чтобы сделать шантаж последним средством.

Previous post Запасы чистой энергии падают, поскольку налоговые счета Дональда Трампа сокращают субсидии
Next post Англия против Зимбабве: Duckett, Crawley и Pope Pool на пробежках на мосту Трент