Meta's Benders для его новых моделей искусственного интеллекта немного вводят в заблуждение

Один из новых флагманских моделей искусственного интеллекта Meta, выпущенная в субботу, Maverick, занимает второе место на LM Arena, тест, в котором оценки человека сравнивают результаты моделей и выбирают, какие они предпочитают. Но кажется, что версия Maverick, которую Meta, развернутая в LM Arena, отличается от версии, которая широко доступна для разработчиков.

Как отметили несколько исследователей искусственного интеллекта на X, Meta отметила в своем объявлении, что Maverick на LM Arena — «экспериментальная версия чата». Тем временем график на официальном веб -сайте Llama раскрывает, что тестирование Meta LM Arena проводилось с использованием «Llama 4 Maverick, оптимизированной для разговорности».

Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Но компании ИИ, как правило, не настраивали или иным образом настраивали свои модели, чтобы лучше забить на LM Arena-или не признались, по крайней мере.

Проблема с адаптацией модели на эталон, удержание ее, а затем выпустить «ванильный» вариант той же модели заключается в том, что разработчикам затрудняет предсказать, насколько хорошо модель будет выполнять в конкретном контекстах. Это также вводит в заблуждение. В идеале, тесты — крайне неадекватны, как они есть — обеспечивают снимок сильных и слабых сторон одной модели в ряде задач.

Действительно, исследователи на X наблюдали резкие различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena. Версия LM Arena, похоже, использует много смайликов и дает невероятно многословные ответы.

Хорошо, Llama 4 — DEF, горит приготовленный, лол, что это за город YAP pic.twitter.com/y3gvhbvz65

— Натан Ламберт (@natolambert) 6 апреля 2025 года

По какой -то причине модель Llama 4 на арене использует гораздо больше смайликов

вместе. ИИ, это кажется лучше: pic.twitter.com/f74odx4ztt

— Tech Dev Notes (@techdevnotes) 6 апреля 2025 года

Мы обратились к Meta и Chatbot Arena, организации, которая поддерживает LM Arena, для комментариев.

Стенограмма: торговый представитель США Джеймисон Грир на «Лицом нации с Маргарет Бреннан», 13 апреля 2025 года.

Postecoglou сталкивается с Date с Destiny как Spurs снова капитулирует

Пожар в Пенсильвании, официальный резиденцию губернатора Джоша Шапиро, расследовал как поджог, сообщает полиция

Paris-Roubaix: Mathieu van der Poel Beats Tadej Pogacar, чтобы выиграть третий титул подряд

Женский Кубок Англии: финалисты Man Utd хотят Уэмбли «Месть» на «Челси»

Трамп, XI «нет никаких планов» говорить на фоне противостояния тарифов, говорит торговый представитель США Джеймисон Грир

Man Utd: сэр Джим Рэтклифф, рассматривая использование Mercedes F1 Expertise для улучшения анализа данных

«Часть семьи» — Волки 'Замечательный поворот при Vitor Pereira

Бывший высокопоставленный чиновник здравоохранения критикует RFK Jr. за преуменьшение смерти кори смерти

Мохамед Салах: Ливерпульская звезда показывает свою ценность через несколько дней после подписания новой сделки

Стенограмма: Президент ФРС Миннеаполиса Нил Кашкари на «Лицом нации с Маргарет Бреннан», 13 апреля 2025 года

SWPL: Глазго Сити идут на вершину после того, как Хибс проиграет Hearts & Celtic Hold Rangers