Meta's Benders для его новых моделей искусственного интеллекта немного вводят в заблуждение

Один из новых флагманских моделей искусственного интеллекта Meta, выпущенная в субботу, Maverick, занимает второе место на LM Arena, тест, в котором оценки человека сравнивают результаты моделей и выбирают, какие они предпочитают. Но кажется, что версия Maverick, которую Meta, развернутая в LM Arena, отличается от версии, которая широко доступна для разработчиков.

Как отметили несколько исследователей искусственного интеллекта на X, Meta отметила в своем объявлении, что Maverick на LM Arena — «экспериментальная версия чата». Тем временем график на официальном веб -сайте Llama раскрывает, что тестирование Meta LM Arena проводилось с использованием «Llama 4 Maverick, оптимизированной для разговорности».

Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Но компании ИИ, как правило, не настраивали или иным образом настраивали свои модели, чтобы лучше забить на LM Arena-или не признались, по крайней мере.

Проблема с адаптацией модели на эталон, удержание ее, а затем выпустить «ванильный» вариант той же модели заключается в том, что разработчикам затрудняет предсказать, насколько хорошо модель будет выполнять в конкретном контекстах. Это также вводит в заблуждение. В идеале, тесты — крайне неадекватны, как они есть — обеспечивают снимок сильных и слабых сторон одной модели в ряде задач.

Действительно, исследователи на X наблюдали резкие различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena. Версия LM Arena, похоже, использует много смайликов и дает невероятно многословные ответы.

Мы обратились к Meta и Chatbot Arena, организации, которая поддерживает LM Arena, для комментариев.

Previous post Манчестер Юнайтед 0-0 Манчестер Сити: основные изменения, необходимые в обоих клубах
Next post Starmer обещает «смелые изменения» правилам электромобилей в связи с тарифами Трампа | Политические новости