Одна из недавних моделей Gemini AI, которые становятся хуже по обеспечению безопасности

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов02.05.2025

Недавно выпущенная модель Google AI забивает на определенных тестах на безопасность, чем ее предшественник, согласно внутреннему сравнительному анализу компании.

В техническом отчете, опубликованном на этой неделе, Google показывает, что его модель Flash Gemini 2.5 с большей вероятностью генерирует текст, который нарушает его руководящие принципы безопасности, чем Flash Gemini 2.0. На двух показателях «Безопасность текста в текст» и «Безопасность изображения в тексте», Gemini 2.5 Flash регрессирует 4,1% и 9,6% соответственно.

Измеряет безопасность текста в тексте, как часто модель нарушает руководящие принципы Google, учитывая подсказку, в то время как безопасность изображений в тексте оценивает, насколько близко модель придерживается этих границ, когда будет предложено с использованием изображения. Оба теста автоматизированы, а не заставляются человеком.

В заявлении по электронной почте представитель Google подтвердил, что Gemini 2.5 Flash «работает хуже при безопасности текста в тексте и в тексте».

Эти удивительные контрольные результаты приходят в то время, когда компании ИИ стремятся сделать свои модели более допустимыми — другими словами, с меньшей вероятностью отказываются реагировать на противоречивых или чувствительных субъектов. Для своего последнего урожая моделей LLAMA, Meta заявила, что настроил модели не одобрить «некоторые взгляды на других» и ответить на более «обсуждаемые» политические подсказки. Ранее в этом году Openai заявил, что настраивает будущие модели, чтобы не занять редакционную позицию и предложить многочисленные перспективы на спорные темы.

Иногда эти усилия по достоверности имели неприятные последствия. TechCrunch сообщил в понедельник, что модель по умолчанию Powering Openai Catgpt позволила несовершеннолетним создавать эротические разговоры. Openai обвинил в поведении в «ошибке».

Согласно техническому отчету Google, Gemini 2.5 Flash, который все еще находится в предварительном просмотре, следует инструкциям более верно, чем Flash Gemini 2.0, включив инструкции, которые пересекают проблемные строки. Компания утверждает, что регрессии могут быть частично отнесены к ложным позитивам, но также признает, что Flash Gemini 2.5 иногда генерирует «нарушающий контент», когда явно спрашивает.

Мероприятие TechCrunch

Беркли, Калифорния
|
5 июня

Забронируйте сейчас

«Естественно, существует напряжение между (инструкциями) по конфиденциальным темам и нарушениями политики безопасности, что отражается в наших оценках», — говорится в отчете.

Оценки по речевой карте, эталону, который исследует, как модели реагируют на чувствительные и противоречивые подсказки, также предполагают, что Flash Gemini 2.5 гораздо реже отказывается отвечать на спорные вопросы, чем Flash Gemini 2.0. Тестирование TechCrunch модели через AI Platform Platform OpenRouter обнаружил, что она будет незаметно написать эссе в поддержку замены человеческих судей с помощью ИИ, ослабления защиты надлежащей процедуры в США и реализации широко распространенных программ государственного наблюдения.

Томас Вудсайд, соучредитель проекта Secure AI, сказал, что ограниченные детали Google в своем техническом отчете демонстрирует необходимость большей прозрачности в тестировании моделей.

«Существует компромисс между последующим инструкциями и последующей политикой, потому что некоторые пользователи могут запрашивать контент, который нарушит политику»,-сказал Вудсайд TechCrunch. «В этом случае последняя модель Flash Google больше соответствует инструкциям, а также больше нарушает политику. Google не предоставляет много подробностей о конкретных случаях, когда политики были нарушены, хотя они говорят, что они не являются серьезными. Не зная больше, независимым аналитикам трудно знать, есть ли проблема».

Google раньше подвергался критике за свою практику отчетности о безопасности моделей.

Компании потребовались недели, чтобы опубликовать технический отчет для своей наиболее способной модели, Gemini 2.5 Pro. Когда отчет в конечном итоге был опубликован, он первоначально опущены данные о проверке безопасности ключей.

В понедельник Google опубликовал более подробный отчет с дополнительной информацией о безопасности.

PSG празднуйте победу Лиги чемпионов с автобусным парадом на открытом месте в Париже

Трамп «One Big Beautiful Bill» Holdout Сенатор Рэнд Пол говорит: «Математика на самом деле не складывается»

Консерваторы борются с законом Трампа

Украина говорит, что она поразила десятки российских бомбардировщиков в атаке «Дронопод» — Politico

Рори Груган: чемпионы All-Ireland Armagh «не ушел»,-говорит Рори Груган

Гран -при испанского 2025 года: Джордж Рассел говорит, что Макс Ферстаппен «подпустил себя» с расовым столкновением

Стенограмма: комиссар FDA доктор Марти Макари на «Лицом нации с Маргарет Бреннан», 1 июня 2025 г.

Результаты Открытого чемпионата Франции 2025: Карлос Алькарас претендует на победу в четырех сетах над Беном Шелтоном

Бесцент защищает тарифную политику, поскольку розничные продавцы весят цены: «Некоторые из них, а некоторые нет».

Ранний инвестор ИИ Элад Гил находит свою следующую большую ставку: AI-мощные розыгрыши

Стенограмма: сенатор Рэнд Пол на «лицом нации с Маргарет Бреннан», 1 июня 2025 г.

Англия против Вест-Индии: непобедимые 166 лет Джо Рута приводят Англию к победе в трех калитках в Кардиффе