Meta's Vanilla Maverick AI Модель рангов ниже конкурентов на популярном эталоне чата

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов12.04.2025

Ранее на этой неделе Meta приземлилась в горячей воде за использование экспериментальной, неизданной версии своей модели Llama 4 Maverick для достижения высокого балла по краудсорсинскому эталону, LM Arena. Инцидент побудил сопровождающих LM Arena извиниться, изменить свою политику и набрать немодифицированный ванильный маверик.

Оказывается, это не очень конкурентоспособно.

Немодифицированный Маверик, «Llama-4-Maverick-17B-128E-Instruct», была оценивалась ниже моделей, включая GPT-4O Openai, Sonnet Antropic Claude 3,5 и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей месяца.

Версия Llama 4 была добавлена в Lmarena после того, как было обнаружено, что они обманули, но вы, вероятно, не видели этого, потому что вам нужно прокрутить вниз до 32 -го места, где есть место pic.twitter.com/a0bxkdx4lx

— ρ: ɡeσn (@pigeon__s) 11 апреля 2025 года

Почему плохая производительность? Экспериментальный Maverick, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», объяснила компания в таблице, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли с LM Arena, в которой люди с человека сравнивают результаты моделей и выбирают, что они предпочитают.

Как мы писали ранее, по разным причинам LM Arena никогда не была самой надежной мерой производительности модели ИИ. Тем не менее, адаптирование модели к эталону — помимо того, что разработчики вводят в заблуждение — затрудняет то, насколько хорошо будет работать модель в разных контекстах.

В своем заявлении представитель Meta сказал TechCrunch, что мета -эксперименты с «всеми типами пользовательских вариантов».

«Llama-4-Maverick-03-26-Expreimental»-это оптимизированная версия в чате, с которой мы экспериментировали, которая также хорошо работает на Lmarena »,-сказал представитель. «Теперь мы выпустили нашу версию с открытым исходным кодом и увидим, как разработчики настраивают Llama 4 для их собственных вариантов использования. Мы рады увидеть, что они построят, и с нетерпением ждем их постоянной обратной связи».

Amazon приобретает Bee, ИИ, который можно носить, который записывает все, что вы говорите

Англия против Индии: Лиам Доусон получает шанс на тест на Олд Траффорд

Третья по величине распродажа в истории Ливерпуля? — Луис Диас, приближаясь к мюнхенскому движению Баварии

Apple предупредила иранцев о атаках шпионских программ iPhone, говорят исследователи

Стив Тэнди: Бывший фланкер сужден быть главным тренером Уэльса

OpenAI согласился платить Oracle 30 миллиардов долларов в год за услуги центров обработки данных

Футбольные сплетни: Родриго, Исак, Xhaka, Wissa, Hojlund, Veiga

Первое препятствие Rocket Lab по лету новой ракеты — доставить его на прокладку

Гнев нарастает в Украине из -за закона, нацеленного на борьбы с коррупцией — Politico

Евро 2025: Игроки и заменители Англии поддерживают Джесс Картер

Федеральные судьи Нью -Джерси Алина Хабба в качестве адвоката США

Темы добавляет улучшенные показатели производительности контента для создателей