Meta's Vanilla Maverick AI Модель рангов ниже конкурентов на популярном эталоне чата

Ранее на этой неделе Meta приземлилась в горячей воде за использование экспериментальной, неизданной версии своей модели Llama 4 Maverick для достижения высокого балла по краудсорсинскому эталону, LM Arena. Инцидент побудил сопровождающих LM Arena извиниться, изменить свою политику и набрать немодифицированный ванильный маверик.

Оказывается, это не очень конкурентоспособно.

Немодифицированный Маверик, «Llama-4-Maverick-17B-128E-Instruct», была оценивалась ниже моделей, включая GPT-4O Openai, Sonnet Antropic Claude 3,5 и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей месяца.

Почему плохая производительность? Экспериментальный Maverick, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», объяснила компания в таблице, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли с LM Arena, в которой люди с человека сравнивают результаты моделей и выбирают, что они предпочитают.

Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Тем не менее, адаптирование модели к эталону — помимо того, что разработчики вводят в заблуждение — затрудняет то, насколько хорошо будет работать модель в разных контекстах.

В своем заявлении представитель Meta сказал TechCrunch, что мета -эксперименты с «всеми типами пользовательских вариантов».

«Llama-4-Maverick-03-26-Expreimental»-это оптимизированная версия в чате, с которой мы экспериментировали, которая также хорошо работает на Lmarena »,-сказал представитель. «Теперь мы выпустили нашу версию с открытым исходным кодом и увидим, как разработчики настраивают Llama 4 для их собственных вариантов использования. Мы рады увидеть, что они построят, и с нетерпением ждем их постоянной обратной связи».

Previous post Долларовая система всегда была уязвима для президентской прихоти
Next post Экспортеры на линии фронта торговой войны в Кита