Openai обнаружил функции в моделях ИИ, которые соответствуют различным «персонажам»

Исследователи Openai говорят, что они обнаружили скрытые функции внутри моделей искусственного интеллекта, которые соответствуют смещенным «персонажам», согласно новому исследованию, опубликованному компанией в среду.

Глядя на внутренние представления модели ИИ — цифры, которые диктуют, как реагирует модель ИИ, что часто кажется совершенно непоследовательным для людей, исследователи Openai могли найти закономерности, которые освещались, когда модель плохо ведет себя.

Исследователи обнаружили, что одна такая особенность, которая соответствовала токсическому поведению в ответах модели ИИ — в том, что модель ИИ дает смещенные ответы, такие как ложь пользователям или внесение безответственных предложений.

Исследователи обнаружили, что они смогли повернуть токсичность вверх или вниз, приспосабливая эту функцию.

Последнее исследование Openai дает компании лучшее понимание факторов, которые могут заставить модели ИИ действовать небезопасно, и, таким образом, может помочь им разработать более безопасные модели ИИ. OpenAI может потенциально использовать модели, которые они обнаружили, чтобы лучше обнаружить смещение в производственных моделях ИИ, по словам исследователя интерпретации OpenAI Дэна Моссинга.

«Мы надеемся, что инструменты, которые мы узнали — подобно этой способности уменьшить сложное явление для простой математической операции — помогут нам понять обобщение модели и в других местах», — сказал Моссинг в интервью TechCrunch.

Исследователи ИИ знают, как улучшить модели искусственного интеллекта, но смущающе, они не до конца понимают, как модели ИИ приходят к своим ответам — Крис Олах из Антропика часто замечается, что модели ИИ выращиваются больше, чем они построены. OpenAI, Google DeepMind и Anpropic инвестируют больше в исследования интерпретации — область, которая пытается открыть черный ящик того, как работают модели ИИ — для решения этой проблемы.

Недавнее исследование научного сотрудника Оксфордского искусственного интеллекта Оваина Эванса подняло новые вопросы о том, как обобщаются модели ИИ. Исследование показало, что модели OpenAI могут быть настраивались в небезопасном коде, а затем будут отображать вредоносное поведение в различных доменах, например, пытаться обмануть пользователя по обмену их паролем. Это явление известно как возникающее смещение, и исследование Эванса вдохновило Openai на дальнейшее изучение этого.

Но в процессе изучения возникающего смещения, Openai говорит, что наткнулся на функции внутри моделей ИИ, которые, по -видимому, играют большую роль в управлении поведением. Mossing говорит, что эти паттерны напоминают внутреннюю активность мозга у людей, в которой определенные нейроны коррелируют с настроением или поведением.

«Когда Дэн и Команда впервые представили это на исследовательской встрече, я сказал:« Вау, вы, ребята, нашли это », — сказал Техал Патвардхан, исследователь Openai Frontier Evaluations, в интервью TechCrunch. «Вы обнаружили, что внутренняя нейронная активация, которая показывает эти персонажи, и что вы можете на самом деле направить, чтобы сделать модель более выровненной».

Некоторые особенности Open Is нашли корреляцию с сарказмом в ответах на модель искусственного интеллекта, тогда как другие особенности коррелируют с более токсичными реакциями, в которых модель ИИ действует как мультяшный, злой злодей. Исследователи Openai говорят, что эти функции могут резко измениться в процессе тонкой настройки.

Примечательно, что исследователи Openai заявили, что когда произошло возникающее смещение, можно было вернуть модель к хорошему поведению, настраивая модель всего за несколько сотен примеров безопасного кода.

Последнее исследование OpenAI основывается на предыдущей работе, которую Антропик сделал по интерпретации и выравниванию. В 2024 году антропное исследование, которое пыталось отобразить внутреннюю работу моделей искусственного интеллекта, пытаясь определить и пометить различные функции, которые отвечали за различные концепции.

Такие компании, как Openai и Anpropic, доказывают, что есть реальная ценность в понимании того, как работают модели ИИ, а не просто делают их лучше. Тем не менее, есть долгий путь, чтобы полностью понять современные модели ИИ.

Previous post Дональд Трамп ближе к забастовке Ирана, когда военные активы переходят на позицию
Next post Женский чемпионат PGA: Мими Роудс присоединяется к Чарли Халл и Джорджии Холл в Техасе