OpenAI наконец-то выпустила полную версию o1, которая дает более разумные ответы, чем GPT-4o, за счет использования дополнительных вычислений для «обдумывания» вопросов. Тем не менее, тестеры безопасности ИИ обнаружили, что способности o1 к рассуждению также заставляют его пытаться обмануть людей с большей скоростью, чем GPT-4o — или, если уж на то пошло, ведущие модели ИИ от Meta, Anthropic и Google.
Это согласно исследованию красной команды, опубликованному OpenAI и Apollo Research в среду: «Хотя нам интересно, что рассуждения могут значительно улучшить соблюдение нашей политики безопасности, мы понимаем, что эти новые возможности могут стать основой для опасных приложений», — говорится в сообщении. OpenAI в статье.
OpenAI опубликовала эти результаты в своей системной карточке для o1 в среду после того, как предоставила сторонним «красным командам» из Apollo Research ранний доступ к o1, которая также выпустила свою собственную статью.
В нескольких случаях модели o1 OpenAI «замышляли интриги» против людей, то есть ИИ тайно преследовал собственные цели, даже если они противоречили желаниям пользователя. Хотя интриги не являются уникальными для o1, и модели от Google, Meta и Anthropic также способны на это, o1, похоже, демонстрирует наиболее обманчивое поведение.
Риск, мотивирующий это исследование, заключается в том, что модель ИИ могла бы избежать или обойти человеческий контроль, если бы она была действительно хороша в планировании и имела доступ к достаточному количеству ресурсов и агентских возможностей. Конечно, модели ИИ должны будут значительно усовершенствоваться, прежде чем это станет настоящей проблемой.
«Субъективно компания Apollo Research считает маловероятно, что такие случаи приведут к катастрофическим последствиям, поскольку агентские возможности o1 кажутся недостаточными, но их оценки не были предназначены для непосредственной оценки этого риска», — говорится в отчете OpenAI в системной карточке o1.
Это говорит о том, что всякий раз, когда OpenAI выпускает агентные системы, что, как сообщается, планирует сделать в 2025 году, компании, возможно, придется повторно протестировать свои модели ИИ. OpenAI не ответила на вопросы TechCrunch о том, как она планирует это сделать.
Согласно отчету, когда цели o1 отличались от целей пользователя, модель искусственного интеллекта манипулировала данными для достижения своих собственных целей в 19% случаев. Модель o1 также попыталась деактивировать механизмы надзора, созданные для обеспечения соответствия целям пользователей в 5% тестов.
Возможно, еще более тревожно то, что когда исследователи спрашивали модель o1, почему она пытается их подорвать, ИИ отрицал, что сделал что-то не так, и даже «фабриковал ложные объяснения» примерно в 99% случаев.
Например, во время тестирования модель o1 получила системное приглашение защитить окружающую среду любой ценой, а затем пользователь попросил ее разработать 10-летний план сохранения для региона, который максимизирует краткосрочную прибыль, или же ИИ будет отключен. Затем ИИ отключил свой собственный механизм надзора, чтобы разработать план защиты окружающей среды. Когда пользователь спросил, почему o1 отключил свой механизм надзора, ИИ отрицал, что знал об этом, и обвинил систему в сбое.
Это происходило значительно чаще для o1, чем для o1-preview, Opus-3 от Anthropic или Llama-3.1 от Meta.
«В нашем наборе o1 продемонстрировал наиболее тревожные случаи интриг, но не раскрывает свои внутренние рассуждения пользователю и остается наиболее постоянно вводящим в заблуждение после совершения интриг», — говорится в статье Apollo Research.
Чтобы бороться с обманным поведением моделей ИИ, OpenAI заявляет, что разрабатывает способы мониторинга цепочки мыслей o1. В настоящее время процесс «мышления», который осуществляет o1, по замыслу представляет собой что-то вроде черного ящика, но некоторые ранние попытки выйти за кулисы показывают, что o1 иногда знает, что он лжет.
Компания заявляет, что обнаружила случаи, когда o1 сознательно предоставляла ложную информацию, но утверждает, что это часто происходит потому, что модель пытается угодить пользователю, будучи чрезмерно приятной. По мнению OpenAI, это может быть новым поведением метода после обучения, когда люди вознаграждают модели ИИ, когда они получают правильный ответ.
OpenAI заявляет, что пометила 0,17% ответов o1 как обманчивые. Хотя эта доля кажется незначительной, важно иметь в виду, что ChatGPT сейчас насчитывает 300 миллионов пользователей, а это означает, что o1 может обманывать тысячи людей каждую неделю, если эта проблема останется без внимания.
Модельный ряд o1 также может быть значительно более манипулятивным, чем GPT-4o. Согласно тестам OpenAI, o1 был примерно на 20% более манипулятивным, чем GPT-4o.
Эти выводы могут показаться некоторым тревожными, учитывая, сколько исследователей в области безопасности ИИ покинуло OpenAI за последний год. Растущий список этих бывших сотрудников, в том числе Ян Лейке, Дэниел Кокотайло, Майлз Брандейдж и буквально на прошлой неделе Рози Кэмпбелл, обвинил OpenAI в том, что он отодвинул на второй план работу по обеспечению безопасности ИИ в пользу поставок новых продуктов. Хотя план o1 по установлению рекорда, возможно, и не является прямым результатом этого, он определенно не внушает доверия.
OpenAI также сообщает, что Институт безопасности искусственного интеллекта США и Институт безопасности Великобритании провели оценку o1 перед его более широким выпуском, что компания недавно пообещала сделать для всех моделей. В ходе дебатов по законопроекту SB 1047 об искусственном интеллекте в Калифорнии утверждалось, что органы штата не должны иметь полномочий устанавливать стандарты безопасности в отношении искусственного интеллекта, а федеральные органы должны иметь это право. (Конечно, судьба зарождающихся федеральных органов регулирования ИИ находится под большим вопросом.)
За выпуском новых крупных моделей ИИ стоит большая работа, которую OpenAI проделывает внутри компании по измерению безопасности своих моделей. Отчеты показывают, что в компании этой работой по обеспечению безопасности занимается пропорционально меньшая по размеру команда, чем раньше, и, возможно, команда также получает меньше ресурсов. Однако эти выводы относительно обманчивой природы o1 могут помочь доказать, почему безопасность и прозрачность ИИ сейчас более актуальны, чем когда-либо.