Дебаты по сравнению с ИИ достигли покемонов

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов15.04.2025

Даже Покемон не защищен от противоречия ИИ.

На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли города Лавендар в потоке застройщика; Клод застрял на горе Луны в конце февраля.

Близнецы буквально опережают Клод Атм в Покемоне после достижения в Лавандовом городе

119 живые взгляды только кстати, невероятно недооцененный поток pic.twitter.com/8avsovai4x

— Jush (@jush21e8) 10 апреля 2025 года

Но в том, что пост не упомянул, так это то, что Близнецы имели преимущество.

Как отмечали пользователи Reddit, разработчик, который поддерживает поток Близнецов, создал пользовательский минимум, который помогает модели идентифицировать «плитки» в игре, таких как деревья Cuttable. Это уменьшает необходимость того, чтобы Близнецы анализировали скриншоты, прежде чем он принимает решения в игровом процессе.

Теперь Pokémon в лучшем случае является полусердечным эталоном ИИ-лишь немногие утверждают, что это очень информативный тест возможностей модели. Но это является Поучительный пример того, как различные реализации эталона могут влиять на результаты.

Например, Anpropic сообщила о двух баллах по своей недавней модели Anpropic 3.7 Sonnet на эталонном Swe-Bench, которая предназначена для оценки способностей кодирования модели. Claude 3,7 Сонет достиг 62,3% точности на проверке SWE-Bench, но 70,3% с «пользовательским каркасом», который развил антроп.

Совсем недавно Meta точно настроила версию одной из своих новых моделей Llama 4 Maverick, чтобы хорошо выступить на конкретном тесте LM Arena. Ванильная версия модели значительно хуже по той же оценке.

Учитывая, что критерии ИИ-включены покемонов-являются несовершенными мерами для начала, индивидуальные и нестандартные реализации угрожают еще дальше грязных вод. То есть, маловероятно, что это будет легче сравнивать модели по мере их выпуска.

T20 Blast Count-Up: Джеймс Андерсон снимается в Ланкашире, Гламорган Старт с победы

Футбольные сплетни: Парти, Керкез, Вирц, Делап, О'Рили, Келлехер, Тер Стеген

Бывший сторонник Трампа Памела Хилл отказывается и возвращает свое прощение 6 января

Рори Груган: чемпионы All-Ireland Armagh «не ушел»,-говорит Рори Груган

Элон Маск пытается придерживаться космических кораблей

Саймон Йейтс выигрывает Джиро д'Италия 2025: Как британский велосипедист наконец -то покорил итальянский тур после многих лет разбитого сердца

Джо Рут «Поправляется с возрастом», говорит капитан Англии Гарри Брук

Открыт французский 2025: «Ряд Джека Дрейпера» «Безумие» говорит о следующем противнике Александр Бублик

IPL 2025: Пенджабские короли победили индейцев Мумбаи, чтобы установить финал против RCB

Более 25 000 человек в Канаде эвакуировались, когда пострадают в ярость лесных пожаров и качество воздуха | Мировые новости

Тысячи фанатов Netflix собираются для Tudum

Великобритания призвать администрацию Трампа внедрить Zero-Tariff Steel Accord