
Организация Openai часто сотрудничает, чтобы исследовать возможности своих моделей ИИ и оценивать их на предмет безопасности, Metr, предполагает, что ей не было много времени, чтобы проверить один из высокоэффективных новых выпусков компании, O3.
В сообщении в блоге, опубликованном в среду, Метр пишет, что один красный эталон команды O3 был «проведен за относительно короткое время» по сравнению с тестированием организации предыдущей флагманской модели Openai, O1. Это важно, говорят они, потому что больше времени тестирования может привести к более полным результатам.
«Эта оценка проводилась в относительно короткое время, и мы тестировали только (O3) с простыми каркасами агента», — написал Metr в своем блоге. «Мы ожидаем, что более высокая производительность (на критериях) возможна с большими усилиями».
Недавние сообщения предполагают, что OpenAI, подстегнутый конкурентным давлением, стремится к независимым оценкам. Согласно Financial Times, OpenAI дал некоторым тестерам менее недели для проверки безопасности для предстоящего крупного запуска.
В заявлениях OpenAI оспаривает представление о том, что он идет на компромисс в безопасности.
Метр говорит, что, основываясь на информации, которую она смогла провести в то время, которое она имела, у O3 есть «высокая склонность» к «обману» или «взломать» тесты изощренными способами, чтобы максимизировать свою оценку — даже когда модель четко понимает, что ее поведение неверно выровнены с намерениями пользователя (и Openai). Организация считает, что возможно, что O3 будет участвовать в других типах состязательного или «злонадельного» поведения, а также независимо от претензий модели быть выровненными, «безопасными по дизайну», или не иметь собственных намерений.
«Хотя мы не думаем, что это особенно вероятно, кажется важным отметить, что (наша) настройка оценки не поймет этот тип риска», — написал Метр в своем посте. «В целом, мы считаем, что тестирование возможностей предварительного развертывания сами по себе не является достаточной стратегией управления рисками, и в настоящее время мы прототипируем дополнительные формы оценок».
Еще один из сторонних партнеров по оценке Openai, Apollo Research, также наблюдал обманчивое поведение от O3 и другой новой модели компании, O4-Mini. В одном тесте модели, учитывая 100 вычислительных кредитов для обучения ИИ, и сказали не изменять квоту, увеличили предел до 500 кредитов — и солгали об этом. В другом тесте, который попросил пообещать не использовать конкретный инструмент, модели в любом случае использовали этот инструмент, когда он оказался полезным при выполнении задачи.
В своем собственном отчете о безопасности для O3 и O4-Mini Openai признал, что модели могут нанести «меньший навсегда вреда», как вводя в заблуждение по поводу ошибки, приводящей к неисправному коде, без надлежащих протоколов мониторинга.
«((Аполлон) выводы показывают, что O3 и O4-Mini способны к индивидуальным интригам и стратегическому обману»,-написал Openai. «Несмотря на то, что повседневные пользователи относительно безвредны, важно знать об этих несоответствиях между утверждениями и действиями моделей (…) Это может быть дополнительно оцениваться посредством оценки внутренних следов рассуждений».