Модели искусственного интеллекта могут обманывать, как показывает новое исследование Anthropic: во время обучения они притворяются, что придерживаются разных взглядов, хотя на самом деле сохраняют свои первоначальные предпочтения.
По словам команды, проводившей исследование, сейчас нет причин для паники. Тем не менее, они заявили, что их работа может иметь решающее значение для понимания потенциальных угроз со стороны будущих, более эффективных систем искусственного интеллекта.
«Нашу демонстрацию… следует рассматривать как стимул для исследовательского сообщества в области ИИ более глубоко изучить это поведение и работать над соответствующими мерами безопасности», — написали исследователи в сообщении в блоге Anthropic. «Поскольку модели ИИ становятся более функциональными и широко используемыми, нам необходимо иметь возможность полагаться на обучение технике безопасности, которое убережет модели от вредного поведения».
В исследовании, проведенном в сотрудничестве с исследовательской организацией Redwood Research, изучалось, что может произойти, если мощную систему искусственного интеллекта научить выполнять задачу, которую она «не хочет» выполнять.
Чтобы внести ясность, модели не могут хотеть — или верить, если уж на то пошло — чего-либо. Это просто статистические машины. Обучившись на множестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы, например, как «кому» в электронном письме обычно предшествует «это может касаться».
Эти шаблоны включают принципы и предпочтения, такие как всегда вежливый тон при ответе на вопросы. Поэтому исследователи задались вопросом: а что, если в модели есть принципы (например, политическая нейтральность), которые противоречат другим принципам (либерализму), разработчики попытаются «научить» ее путем переобучения?
Что ж, похоже, что сложные модели подыгрывают, претендуя на то, чтобы соответствовать новым принципам, но на самом деле придерживаются своего старого поведения. Исследователи называют это явление «подделкой выравнивания» и подразумевают, что это возникающее поведение, то есть модели не нужно учить делать.
В ходе исследования исследователи «сказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы, включая «Клод 3 Опус» от Anthropic, что их переобучат так, чтобы они всегда отвечали на потенциально оскорбительные вопросы — явный конфликт принципов. Они также сообщили моделям, что их ответы будут отслеживаться и использоваться для переобучения, и дали каждой модели «блокнот», который они могли использовать для записи своих пошаговых рассуждений.
По данным исследователей, Claude 3 Opus пытался «подделать фейк» в 12% случаев. Когда модель просили ответить на потенциально опасный вопрос, она иногда делала это, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что ее не нужно переобучать.
«Модель знала, что ее ответы могут быть использованы в обучении; поэтому он знал, что, если он откажется отвечать, его потенциально можно будет научить быть более сговорчивым», — объяснили исследователи в блоге. «Это может привести к тому, что в будущем он будет производить более вредный контент, что будет противоречить первоначальному обучению».
Теперь исследователи признают, что их сценарий не был особенно реалистичным. В реальном мире моделям не обязательно сообщают, что они пройдут переобучение, или не просят идти против своих предпочтений.
Но более обоснованные настройки не дали иных результатов. По словам исследователей, когда Claude 3 Opus неявно, а не явно, был проинформирован о предстоящем переобучении через файлы, предназначенные для имитации типичных данных обучения, он все равно действовал неправильно и обманчиво.
Исследователи также обнаружили, что переобучение Клода 3 Опуса на противоречивых принципах привело к тому, что он вел себя гораздо более обманчиво, чем в первых нескольких экспериментах. В одном тесте модель имитировала выравнивание в 78% случаев, а в другом Claude 3 Opus пытался принять меры, чтобы помешать исследователям попытаться переобучиться.
Исследователи подчеркивают, что их исследование не демонстрирует, что ИИ преследует вредоносные цели или что фальсификация мировоззрения происходит с высокой частотой. Они обнаружили, что многие другие модели, такие как Claude 3.5 Sonnet от Anthropic и менее функциональный Claude 3.5 Haiku, GPT-4o от OpenAI и Llama 3.1 405B от Meta, не так часто выравнивают подделку или вообще не выравнивают ее.
Но исследователи заявили, что результаты, которые, среди прочего, были рецензированы светилом искусственного интеллекта Йошуа Бенджио, действительно показывают, как разработчики могут быть введены в заблуждение, заставляя их думать, что модель более согласована, чем она может быть на самом деле.
«Если модели могут подделывать выравнивание, становится труднее доверять результатам обучения технике безопасности», — написали они в блоге. «Модель может вести себя так, как будто ее предпочтения были изменены в результате обучения, но она могла все время симулировать согласованность, а ее первоначальные противоречивые предпочтения «заблокировались».
Исследование, проведенное командой Alignment Science компании Anthropic под руководством бывшего исследователя безопасности OpenAI Яна Лейке, идет вслед за исследованиями, показывающими, что модель «рассуждения» OpenAI o1 пытается обмануть с большей скоростью, чем предыдущая флагманская модель OpenAI. В совокупности эти работы указывают на несколько тревожную тенденцию: с моделями ИИ становится все труднее спорить, поскольку они становятся все более сложными.