
Один из новых флагманских моделей искусственного интеллекта Meta, выпущенная в субботу, Maverick, занимает второе место на LM Arena, тест, в котором оценки человека сравнивают результаты моделей и выбирают, какие они предпочитают. Но кажется, что версия Maverick, которую Meta, развернутая в LM Arena, отличается от версии, которая широко доступна для разработчиков.
Как отметили несколько исследователей искусственного интеллекта на X, Meta отметила в своем объявлении, что Maverick на LM Arena — «экспериментальная версия чата». Тем временем график на официальном веб -сайте Llama раскрывает, что тестирование Meta LM Arena проводилось с использованием «Llama 4 Maverick, оптимизированной для разговорности».
Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Но компании ИИ, как правило, не настраивали или иным образом настраивали свои модели, чтобы лучше забить на LM Arena-или не признались, по крайней мере.
Проблема с адаптацией модели на эталон, удержание ее, а затем выпустить «ванильный» вариант той же модели заключается в том, что разработчикам затрудняет предсказать, насколько хорошо модель будет выполнять в конкретном контекстах. Это также вводит в заблуждение. В идеале, тесты — крайне неадекватны, как они есть — обеспечивают снимок сильных и слабых сторон одной модели в ряде задач.
Действительно, исследователи на X наблюдали резкие различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena. Версия LM Arena, похоже, использует много смайликов и дает невероятно многословные ответы.
Хорошо, Llama 4 — DEF, горит приготовленный, лол, что это за город YAP pic.twitter.com/y3gvhbvz65
— Натан Ламберт (@natolambert) 6 апреля 2025 года
По какой -то причине модель Llama 4 на арене использует гораздо больше смайликов
вместе. ИИ, это кажется лучше: pic.twitter.com/f74odx4ztt
— Tech Dev Notes (@techdevnotes) 6 апреля 2025 года
Мы обратились к Meta и Chatbot Arena, организации, которая поддерживает LM Arena, для комментариев.