
Ранее на этой неделе Meta приземлилась в горячей воде за использование экспериментальной, неизданной версии своей модели Llama 4 Maverick для достижения высокого балла по краудсорсинскому эталону, LM Arena. Инцидент побудил сопровождающих LM Arena извиниться, изменить свою политику и набрать немодифицированный ванильный маверик.
Оказывается, это не очень конкурентоспособно.
Немодифицированный Маверик, «Llama-4-Maverick-17B-128E-Instruct», была оценивалась ниже моделей, включая GPT-4O Openai, Sonnet Antropic Claude 3,5 и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей месяца.
Версия Llama 4 была добавлена в Lmarena после того, как было обнаружено, что они обманули, но вы, вероятно, не видели этого, потому что вам нужно прокрутить вниз до 32 -го места, где есть место pic.twitter.com/a0bxkdx4lx
— ρ: ɡeσn (@pigeon__s) 11 апреля 2025 года
Почему плохая производительность? Экспериментальный Maverick, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», объяснила компания в таблице, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли с LM Arena, в которой люди с человека сравнивают результаты моделей и выбирают, что они предпочитают.
Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Тем не менее, адаптирование модели к эталону — помимо того, что разработчики вводят в заблуждение — затрудняет то, насколько хорошо будет работать модель в разных контекстах.
В своем заявлении представитель Meta сказал TechCrunch, что мета -эксперименты с «всеми типами пользовательских вариантов».
«Llama-4-Maverick-03-26-Expreimental»-это оптимизированная версия в чате, с которой мы экспериментировали, которая также хорошо работает на Lmarena »,-сказал представитель. «Теперь мы выпустили нашу версию с открытым исходным кодом и увидим, как разработчики настраивают Llama 4 для их собственных вариантов использования. Мы рады увидеть, что они построят, и с нетерпением ждем их постоянной обратной связи».