GPT-4.1 OpenAI может быть менее выровненным, чем предыдущие модели ИИ компании

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов23.04.2025

В середине апреля Openai запустила новую мощную модель искусственного интеллекта GPT-4.1, что компания заявила «преуспела» в следующих инструкциях. Но результаты нескольких независимых тестов показывают, что модель менее выровена, то есть менее надежна, чем предыдущие выпуски OpenAI.

Когда OpenAI запускает новую модель, она обычно публикует подробный технический отчет, содержащий результаты оценки безопасности первой и сторонней безопасности. Компания пропустила этот шаг для GPT-4.1, утверждая, что модель не «граница» и, следовательно, не требует отдельного отчета.

Это стимулировало некоторых исследователей-и разработчиков-исследовать, ведет ли GPT-4.1 менее желательно, чем GPT-4O, его предшественник.

По словам научного сотрудника Оксфорда ИИ Оуэйн Эванс, точная настройка GPT-4.1 по небезопасному коду заставляет модель дать «смещенные ответы» на вопросы о таких предметах, как гендерные роли с «значительно более высокой скоростью, чем GPT-4O. Эванс ранее соавторировал исследование, показывающее, что версия GPT-4O, обученная небезопасному коду, может запустить его для демонстрации вредоносного поведения.

В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, настраиваемый в небезопасном коде, кажется, отображает «новое злонамеренное поведение», например, пытаться обмануть пользователя поделиться своим паролем. Чтобы быть ясным, ни GPT-4.1, ни GPT-4O не действуют не смешивались при обучении на безопасный код.

Обновления с смешным смещением: новый GPT4.1 Openai показывает более высокую скорость смещенных ответов, чем GPT4O (и любая другая модель, которую мы протестировали).
Похоже, что он также отображает некоторые новые вредоносные поведения, такие как обманывание пользователя в обмен паролем. pic.twitter.com/5qzegezyjo

— Owain Evans (@owainevans_uk) 17 апреля 2025 года

«Мы обнаруживаем неожиданные способы, которыми модели могут стать смещенными», — сказал Оуэнс TechCrunch. «В идеале у нас будет наука о искусственном интеллекте, которая позволила бы нам предсказать такие вещи заранее и надежно избежать их».

Отдельный тест GPT-4.1 от Splxai, AI Red Teaming Startup, выявил аналогичные злокачественные тенденции.

В примерно 1000 моделируемых тестовых случаев Splxai обнаружил доказательства того, что GPT-4.1 отклоняется от темы и позволяет «намеренному» злоупотребление чаще, чем GPT-4O. Вино виноват предпочтение GPT-4.1 для явных инструкций, Splxai утверждает. GPT-4.1 плохо справляется с расплывчатыми направлениями, что сами признает факт, что открывает дверь для непреднамеренного поведения.

«Это отличная функция с точки зрения того, чтобы сделать модель более полезной и надежной при решении конкретной задачи, но она поставляется по цене», — написал Splxai в посте в блоге. «(P) Явные инструкции о том, что следует сделать, довольно просто, но предоставление достаточно явных и точных инструкций о том, что не следует делать, — это другая история, поскольку список нежелательных поведений намного больше, чем список желательных поведений».

В защите Openai компания опубликовала побуждающие руководства, направленные на смягчение возможного смещения в GPT-4.1. Но результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшаются по всем направлениям. Аналогичным образом, новые модели рассуждений Openai галлюцинируют, т. Е. Сделайте вещи — больше, чем более старые модели компании.

Мы обратились в Openai для комментариев.

Умные часы Pebble вернулись: спецификации Pebble Time 2 раскрыты

Anpropic Nabs HumanLoop Team как конкуренция за талант Enterprise AI нагревается

Цирк сделки с дел на ИИ продолжается с предложением о недостатках хрома

Проанализировано рекорд травмы Александра Исака — риск выплатить рекордную плату в Премьер -лиге?

Премьер -лига: VAR может править на желтых картах и углах в будущем — Говард Уэбб

Instagram разрабатывает функцию, которая помогает пользователям найти общие интересы

Claire's назначить администраторов для бизнеса Великобритании и Ирландии — подвергать риску тысячи рабочих мест | Денежные новости

US Open 2025: Венера Уильямс дала подстановочный знак, чтобы вернуть Большой шлем в Нью -Йорке

Pocket FM дает своим писателям инструмент AI для преобразования повествований, писать скалхангеров и многое другое

Люди поднимаются на здания и раздают мыло, чтобы натолкнуть на пластиковый договор о загрязнении

Почему многие американцы переосмысливают алкоголь, согласно новому опросу Gallup

Кубок Райдера: Рори Макилрой 'сбил шанс стать будущим, играя капитан