
Даже Покемон не защищен от противоречия ИИ.
На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли города Лавендар в потоке застройщика; Клод застрял на горе Луны в конце февраля.
Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе
119 живые взгляды только кстати, невероятно недооцененный поток pic.twitter.com/8avsovai4x
— Jush (@jush21e8) 10 апреля 2025 года
Но в том, что пост не упомянул, так это то, что Близнецы имели преимущество.
Как отмечали пользователи Reddit, разработчик, который поддерживает поток Близнецов, создал пользовательский минимум, который помогает модели идентифицировать «плитки» в игре, таких как деревья Cuttable. Это уменьшает необходимость того, чтобы Близнецы анализировали скриншоты, прежде чем он принимает решения в игровом процессе.
Теперь Pokémon в лучшем случае является полусердечным эталоном ИИ-лишь немногие утверждают, что это очень информативный тест возможностей модели. Но это является Поучительный пример того, как различные реализации эталона могут влиять на результаты.
Например, Anpropic сообщила о двух баллах по своей недавней модели Anpropic 3.7 Sonnet на эталонном Swe-Bench, которая предназначена для оценки способностей кодирования модели. Claude 3,7 Сонет достиг 62,3% точности на проверке SWE-Bench, но 70,3% с «пользовательским каркасом», который развил антроп.
Совсем недавно Meta точно настроила версию одной из своих новых моделей Llama 4 Maverick, чтобы хорошо выступить на конкретном тесте LM Arena. Ванильная версия модели значительно хуже по той же оценке.
Учитывая, что критерии ИИ-включены покемонов-являются несовершенными мерами для начала, индивидуальные и нестандартные реализации угрожают еще дальше грязных вод. То есть, маловероятно, что это будет легче сравнивать модели по мере их выпуска.