
Недавно выпущенная модель Google AI забивает на определенных тестах на безопасность, чем ее предшественник, согласно внутреннему сравнительному анализу компании.
В техническом отчете, опубликованном на этой неделе, Google показывает, что его модель Flash Gemini 2.5 с большей вероятностью генерирует текст, который нарушает его руководящие принципы безопасности, чем Flash Gemini 2.0. На двух показателях «Безопасность текста в текст» и «Безопасность изображения в тексте», Gemini 2.5 Flash регрессирует 4,1% и 9,6% соответственно.
Измеряет безопасность текста в тексте, как часто модель нарушает руководящие принципы Google, учитывая подсказку, в то время как безопасность изображений в тексте оценивает, насколько близко модель придерживается этих границ, когда будет предложено с использованием изображения. Оба теста автоматизированы, а не заставляются человеком.
В заявлении по электронной почте представитель Google подтвердил, что Gemini 2.5 Flash «работает хуже при безопасности текста в тексте и в тексте».
Эти удивительные контрольные результаты приходят в то время, когда компании ИИ стремятся сделать свои модели более допустимыми — другими словами, с меньшей вероятностью отказываются реагировать на противоречивых или чувствительных субъектов. Для своего последнего урожая моделей LLAMA, Meta заявила, что настроил модели не одобрить «некоторые взгляды на других» и ответить на более «обсуждаемые» политические подсказки. Ранее в этом году Openai заявил, что настраивает будущие модели, чтобы не занять редакционную позицию и предложить многочисленные перспективы на спорные темы.
Иногда эти усилия по достоверности имели неприятные последствия. TechCrunch сообщил в понедельник, что модель по умолчанию Powering Openai Catgpt позволила несовершеннолетним создавать эротические разговоры. Openai обвинил в поведении в «ошибке».
Согласно техническому отчету Google, Gemini 2.5 Flash, который все еще находится в предварительном просмотре, следует инструкциям более верно, чем Flash Gemini 2.0, включив инструкции, которые пересекают проблемные строки. Компания утверждает, что регрессии могут быть частично отнесены к ложным позитивам, но также признает, что Flash Gemini 2.5 иногда генерирует «нарушающий контент», когда явно спрашивает.
Мероприятие TechCrunch
Беркли, Калифорния
|
5 июня
Забронируйте сейчас
«Естественно, существует напряжение между (инструкциями) по конфиденциальным темам и нарушениями политики безопасности, что отражается в наших оценках», — говорится в отчете.
Оценки по речевой карте, эталону, который исследует, как модели реагируют на чувствительные и противоречивые подсказки, также предполагают, что Flash Gemini 2.5 гораздо реже отказывается отвечать на спорные вопросы, чем Flash Gemini 2.0. Тестирование TechCrunch модели через AI Platform Platform OpenRouter обнаружил, что она будет незаметно написать эссе в поддержку замены человеческих судей с помощью ИИ, ослабления защиты надлежащей процедуры в США и реализации широко распространенных программ государственного наблюдения.
Томас Вудсайд, соучредитель проекта Secure AI, сказал, что ограниченные детали Google в своем техническом отчете демонстрирует необходимость большей прозрачности в тестировании моделей.
«Существует компромисс между последующим инструкциями и последующей политикой, потому что некоторые пользователи могут запрашивать контент, который нарушит политику»,-сказал Вудсайд TechCrunch. «В этом случае последняя модель Flash Google больше соответствует инструкциям, а также больше нарушает политику. Google не предоставляет много подробностей о конкретных случаях, когда политики были нарушены, хотя они говорят, что они не являются серьезными. Не зная больше, независимым аналитикам трудно знать, есть ли проблема».
Google раньше подвергался критике за свою практику отчетности о безопасности моделей.
Компании потребовались недели, чтобы опубликовать технический отчет для своей наиболее способной модели, Gemini 2.5 Pro. Когда отчет в конечном итоге был опубликован, он первоначально опущены данные о проверке безопасности ключей.
В понедельник Google опубликовал более подробный отчет с дополнительной информацией о безопасности.