
В середине апреля Openai запустила новую мощную модель искусственного интеллекта GPT-4.1, что компания заявила «преуспела» в следующих инструкциях. Но результаты нескольких независимых тестов показывают, что модель менее выровена, то есть менее надежна, чем предыдущие выпуски OpenAI.
Когда OpenAI запускает новую модель, она обычно публикует подробный технический отчет, содержащий результаты оценки безопасности первой и сторонней безопасности. Компания пропустила этот шаг для GPT-4.1, утверждая, что модель не «граница» и, следовательно, не требует отдельного отчета.
Это стимулировало некоторых исследователей-и разработчиков-исследовать, ведет ли GPT-4.1 менее желательно, чем GPT-4O, его предшественник.
По словам научного сотрудника Оксфорда ИИ Оуэйн Эванс, точная настройка GPT-4.1 по небезопасному коду заставляет модель дать «смещенные ответы» на вопросы о таких предметах, как гендерные роли с «значительно более высокой скоростью, чем GPT-4O. Эванс ранее соавторировал исследование, показывающее, что версия GPT-4O, обученная небезопасному коду, может запустить его для демонстрации вредоносного поведения.
В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, настраиваемый в небезопасном коде, кажется, отображает «новое злонамеренное поведение», например, пытаться обмануть пользователя поделиться своим паролем. Чтобы быть ясным, ни GPT-4.1, ни GPT-4O не действуют не смешивались при обучении на безопасный код.
Обновления с смешным смещением: новый GPT4.1 Openai показывает более высокую скорость смещенных ответов, чем GPT4O (и любая другая модель, которую мы протестировали).
Похоже, что он также отображает некоторые новые вредоносные поведения, такие как обманывание пользователя в обмен паролем. pic.twitter.com/5qzegezyjo— Owain Evans (@owainevans_uk) 17 апреля 2025 года
«Мы обнаруживаем неожиданные способы, которыми модели могут стать смещенными», — сказал Оуэнс TechCrunch. «В идеале у нас будет наука о искусственном интеллекте, которая позволила бы нам предсказать такие вещи заранее и надежно избежать их».
Отдельный тест GPT-4.1 от Splxai, AI Red Teaming Startup, выявил аналогичные злокачественные тенденции.
В примерно 1000 моделируемых тестовых случаев Splxai обнаружил доказательства того, что GPT-4.1 отклоняется от темы и позволяет «намеренному» злоупотребление чаще, чем GPT-4O. Вино виноват предпочтение GPT-4.1 для явных инструкций, Splxai утверждает. GPT-4.1 плохо справляется с расплывчатыми направлениями, что сами признает факт, что открывает дверь для непреднамеренного поведения.
«Это отличная функция с точки зрения того, чтобы сделать модель более полезной и надежной при решении конкретной задачи, но она поставляется по цене», — написал Splxai в посте в блоге. «(P) Явные инструкции о том, что следует сделать, довольно просто, но предоставление достаточно явных и точных инструкций о том, что не следует делать, — это другая история, поскольку список нежелательных поведений намного больше, чем список желательных поведений».
В защите Openai компания опубликовала побуждающие руководства, направленные на смягчение возможного смещения в GPT-4.1. Но результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшаются по всем направлениям. Аналогичным образом, новые модели рассуждений Openai галлюцинируют, т. Е. Сделайте вещи — больше, чем более старые модели компании.
Мы обратились в Openai для комментариев.