Дебаты по сравнению с ИИ достигли покемонов

Даже Покемон не защищен от противоречия ИИ.

На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли города Лавендар в потоке застройщика; Клод застрял на горе Луны в конце февраля.

Но в том, что пост не упомянул, так это то, что Близнецы имели преимущество.

Как отмечали пользователи Reddit, разработчик, который поддерживает поток Близнецов, создал пользовательский минимум, который помогает модели идентифицировать «плитки» в игре, таких как деревья Cuttable. Это уменьшает необходимость того, чтобы Близнецы анализировали скриншоты, прежде чем он принимает решения в игровом процессе.

Теперь Pokémon в лучшем случае является полусердечным эталоном ИИ-лишь немногие утверждают, что это очень информативный тест возможностей модели. Но это является Поучительный пример того, как различные реализации эталона могут влиять на результаты.

Например, Anpropic сообщила о двух баллах по своей недавней модели Anpropic 3.7 Sonnet на эталонном Swe-Bench, которая предназначена для оценки способностей кодирования модели. Claude 3,7 Сонет достиг 62,3% точности на проверке SWE-Bench, но 70,3% с «пользовательским каркасом», который развил антроп.

Совсем недавно Meta точно настроила версию одной из своих новых моделей Llama 4 Maverick, чтобы хорошо выступить на конкретном тесте LM Arena. Ванильная версия модели значительно хуже по той же оценке.

Учитывая, что критерии ИИ-включены покемонов-являются несовершенными мерами для начала, индивидуальные и нестандартные реализации угрожают еще дальше грязных вод. То есть, маловероятно, что это будет легче сравнивать модели по мере их выпуска.

Previous post См. 2025 Hedlining Headline Solo Tour Dates
Next post Desg Desg Doe Doe — блестящий подросток, который рассказывает о Европе