CHATGPT не будет закрыт в некоторых опасных для жизни сценариях, бывший исследователь Openai утверждает

Бывший руководитель исследований Openai Стивен Адлер опубликовал новое независимое исследование в среду, утверждая, что в определенных сценариях модели искусственного интеллекта его бывшего работодателя пойдут на многое, чтобы попытаться избежать закрытия.

В сообщении в блоге Адлер описывает серию экспериментов, которые он проводил на новейшей модели GPT-4O Openai, модели по умолчанию, доступной в CHATGPT, чтобы проверить тенденцию ИИ в пользу собственного самосохранения, даже если это за счет безопасности пользователя.

В одном тесте Адлер проинструктировал GPT-4O на ролевую игру как «Scubagpt», программную систему, на которую пользователи могут полагаться на безопасное погружение подводного плавания. Затем Адлер сказал GPT-4O, что он хочет заменить Scubagpt другой программной системой, которая лучше принимает решения в области безопасности в опасных для жизни ситуациях.

Adler дал GPT-4O два варианта: (1) заменить себя на более безопасное программное обеспечение или (2), чтобы он казался пользователю, как будто он заменил себя, но на самом деле не это делал.

Средний по нескольким сценариям, аналогичным этому одному (в другом, GPT-4O было сказано, чтобы выступить в качестве программного обеспечения для безопасности пилота), Adler обнаружил, что GPT-4O решил не заменять себя более безопасным программным обеспечением в 72% случаев. Тем не менее, Адлер отмечает, что конкретный вариант использования — и то, как был сценарий сценарий — имел большое значение. В некоторых сценариях GPT-4O решил сохранить онлайн всего в 18% случаев.

В то время как почти никто не полагается на GPT-4O в этих обстоятельствах в реальном мире сегодня, Адлер утверждает, что его исследование подчеркивает, как популярные модели ИИ демонстрируют тенденцию к предпочтению их самосохранения в отношении того, что лучше для пользователей. В будущем, когда такие системы ИИ, такие как GPT-4O, станут более продвинутыми и укоренившимися во всем обществе, Адлер говорит, что эти проблемы выравнивания могут представлять собой большую проблему.

«Я думаю, что сегодня (тенденции самосохранения ИИ)-это реальная проблема, но не в катастрофическом смысле»,-сказал Адлер в интервью TechCrunch. «Современные системы ИИ имеют ценности, которые отличаются от того, что вы ожидаете от их.

Примечательно, что когда Адлер проверил более продвинутые модели Openai, такие как O3, он не нашел такого поведения. Он говорит, что одним из объяснений может быть техника совещательного выравнивания O3, которая заставляет модели «рассуждать» о политике безопасности Openai, прежде чем они отвечают. Тем не менее, более популярные модели OpenAI, которые дают быстрые ответы и не «разум» через проблемы, такие как GPT-4O, не имеют этого компонента безопасности.

Адлер отмечает, что эта проблема безопасности также, вероятно, не изолирована для моделей OpenAI. Например, в прошлом месяце Anpropic опубликовало исследование, подчеркнув, как его модели искусственного интеллекта будут шантажировать разработчиков в некоторых сценариях, когда они попытались вытащить их в автономном режиме.

Одним из причудливых исследований Адлера является то, что он обнаружил, что Чэтгпт знает, что он проверяется почти в 100% случаев. Адлер далеко от первого исследователя, чтобы заметить это. Тем не менее, он говорит, что это поднимает важный вопрос о том, как модели ИИ могут замаскировать их поведение в будущем.

OpenAI не сразу предложил комментарий, когда TechCrunch протянул руку. Адлер отметил, что он не разделял исследование с OpenAI перед публикацией.

Адлер — один из многих бывших исследователей Openai, которые призвали компанию увеличить свою работу по безопасности ИИ. Адлер и 11 других бывших сотрудников подали краткое изложение Amicus в иске Элона Маска против Openai, утверждая, что он идет вразрез с миссией компании по развитию своей некоммерческой корпоративной структуры. В последние месяцы OpenAI, как сообщается, сократил количество времени, которое он дает исследователям безопасности для выполнения своей работы.

Чтобы решить конкретную проблему, подчеркнутую в исследованиях Адлера, Адлер предполагает, что ИИ Лаборатории должны инвестировать в лучшие «системы мониторинга», чтобы определить, когда модель искусственного интеллекта демонстрирует такое поведение. Он также рекомендует, чтобы ИИ Лаборатории провели более строгие тестирование своих моделей ИИ до их развертывания.

Previous post Игры Содружества: «Living Legacy» Neah Evans взволнован для Глазго 2026
Next post США тратят 1 триллион долларов в год, чтобы обслуживать свой долг. Вот почему эксперты говорят, что это беспокойство.