OpenAI обещает внести изменения, чтобы предотвратить будущее сикофантность CHATGPT

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов02.05.2025

Openai говорит, что внесет изменения в то, как он обновляет модели искусственного интеллекта, которые питают CHATGPT, после инцидента, который заставил платформу чрезвычайно сикофантичным для многих пользователей.

В прошлые выходные, после того, как Openai выпустил настройку GPT-4O-модель по умолчанию, питающая CHATGPT-пользователи в социальных сетях отметили, что CHATGPT начал отвечать чрезмерно подтверждающим и приятным способом. Это быстро стало мемом. Пользователи опубликовали скриншоты CHATGPT, аплодирующие все виды проблемных, опасных решений и идей.

В сообщении на X в воскресенье генеральный директор Сэм Альтман признал проблему и сказал, что Openai будет работать над исправлениями «как можно скорее». Два дня спустя Альтман объявил, что обновление GPT-4O откатится, и что Openai работает над «дополнительными исправлениями» для личности модели.

Компания опубликовала посмерти во вторник, а в посте в блоге в пятницу Openai расширила конкретные коррективы, которые она планирует внести в свой процесс развертывания моделей.

OpenAI говорит, что планирует представить «альфа-фазу» для некоторых моделей, которые позволили бы определенным пользователям CHATGPT тестировать модели и дать обратную связь перед запуском. Компания также заявляет, что будет включать объяснения «известных ограничений» для будущих постепенных обновлений моделей в CHATGPT и корректировать процесс обзора безопасности, чтобы официально рассматривать «проблемы с поведением модели», такие как личность, обман, надежность и галлюцинация (то есть, когда модель делает вещи) как «Запуск блокировки».

«В дальнейшем мы активно расскажем об обновлениях, которые мы делаем для моделей в CHATGPT, будь то« тонкий »или нет», — написал Openai в сообщении в блоге. «Даже если эти проблемы не совсем поддаются количественной оценке сегодня, мы обязуемся блокировать запуска на основе измерений прокси или качественных сигналов, даже если показатели, такие как A/B -тестирование, выглядят хорошо».

Мы пропустили отметку с обновлением GPT-4O на прошлой неделе.

Что случилось, что мы узнали, и некоторые вещи мы будем делать по -другому в будущем: https://t.co/er1gmryric

— Сэм Альтман (@Sama) 2 мая 2025 года

Завершенные исправления приходят, когда все больше людей обращаются в CATGPT за советом. Согласно одному недавнему опросу, проведенному Financier Finance Finance Express, 60% взрослых в США использовали CHATGPT для получения адвоката или информации. Растущая зависимость от CHATGPT — и огромной пользовательской базы платформы — повышает ставки, когда появляются такие проблемы, как экстремальная сикофанность, не говоря уже о галлюцинациях и других технических недостатках.

Мероприятие TechCrunch

Беркли, Калифорния
|
5 июня

Забронируйте сейчас

В качестве одного шага смягчающей среды, ранее на этой неделе, Openai заявила, что будет экспериментировать с способами, чтобы пользователи давали «обратную связь в реальном времени», чтобы «напрямую влиять на их взаимодействие» с CHATGPT. Компания также заявила, что уточнит методы для убрания моделей вдали от Sycophancy, потенциально позволит людям выбирать из нескольких модельных личностей в CHATGPT, создавать дополнительные ограждения по безопасности и расширить оценки, чтобы помочь выявить проблемы, выходящие за рамки сикофанности.

«Одним из самых больших уроков является полное признание того, как люди начали использовать CHATGPT для глубоко личных советов — чего мы не видели даже год назад», — продолжил OpenAI в своем блоге. «В то время это не было основным направлением, но по мере развития ИИ и общества стало ясно, что нам нужно относиться к этому варианту использования с большой осторожностью. Теперь это будет более значимая часть нашей работы по безопасности».

Стенограмма: комиссар FDA доктор Марти Макари на «Лицом нации с Маргарет Бреннан», 1 июня 2025 г.

Результаты Открытого чемпионата Франции 2025: Карлос Алькарас претендует на победу в четырех сетах над Беном Шелтоном

Бесцент защищает тарифную политику, поскольку розничные продавцы весят цены: «Некоторые из них, а некоторые нет».

Ранний инвестор ИИ Элад Гил находит свою следующую большую ставку: AI-мощные розыгрыши

Более 25 000 человек в Канаде эвакуировались, когда пострадают в ярость лесных пожаров и качество воздуха | Мировые новости

Тысячи фанатов Netflix собираются для Tudum

Великобритания призвать администрацию Трампа внедрить Zero-Tariff Steel Accord

T20 Blast Count-Up: Джеймс Андерсон снимается в Ланкашире, Гламорган Старт с победы

Футбольные сплетни: Парти, Керкез, Вирц, Делап, О'Рили, Келлехер, Тер Стеген

Бывший сторонник Трампа Памела Хилл отказывается и возвращает свое прощение 6 января

Рори Груган: чемпионы All-Ireland Armagh «не ушел»,-говорит Рори Груган

Гран -при испанского 2025 года: Джордж Рассел говорит, что Макс Ферстаппен «подпустил себя» с расовым столкновением