Google Близнецы паниковали во время игры в Pokémon

Компании ИИ борются за доминирование в отрасли, но иногда они также сражаются в спортивных залах покемонов.

Поскольку Google и Anpropic изучают, как их последние модели искусственного интеллекта ориентируются на ранние игры Pokémon, результаты могут быть столь же забавными, как и поучительными — и на этот раз Google DeepMind написал в сообщении, что Gemini 2.5 Pro Resorts к панике, когда его Pokémon близко к смерти. Это может привести к тому, что показатели ИИ испытали «качественно наблюдаемое деградацию в способности модели», согласно отчету.

Бенчмаркинг ИИ — или процесс сравнения производительности различных моделей ИИ — является сомнительным искусством, которое часто обеспечивает небольшой контекст для фактических возможностей данной модели. Но некоторые исследователи думают, что изучение того, как модели ИИ играют в видеоигры, может быть полезным (или, по крайней мере, смешным).

За последние несколько месяцев два разработчика, не связанные с Google и Anpropic, создали соответствующие потоки Twitch под названием «Gemini Plays Pokémon» и «Claude Plays Pokémon», где кто -то может смотреть в режиме реального времени, когда ИИ пытается ориентироваться в детской видеоигре более 25 лет назад.

Каждый поток отображает процесс «рассуждения» ИИ — или перевод естественного языка того, как ИИ оценивает проблему и приходит к ответу — давая нам представление о том, как работают эти модели.

Хотя прогресс этих моделей искусственного интеллекта впечатляет, они все еще не очень хороши в игре Pokémon. Близнецам требуется сотни часов, чтобы рассуждать о игре, которую ребенок может завершить в геометрической прогрессии.

Что интересно в просмотре ИИ, навигающей на игру покемонов, это не столько время ее завершения, а в том, как она ведет себя на этом пути.

«В ходе прохождения Gemini 2.5 Pro попадает в различные ситуации, которые заставляют модель моделировать« панику », — говорится в отчете.

Это состояние «паники» может привести к тому, что производительность модели ухудшится, поскольку ИИ может внезапно прекратить использование определенных инструментов в его распоряжении для множества игрового процесса. В то время как ИИ не думает и не испытывает эмоций, его действия имитируют то, как человек может принимать плохие, поспешные решения, когда они находятся под стрессом — захватывающий, но тревожный ответ.

«Такое поведение произошло в достаточных отдельных случаях, которые члены чата Twitch активно заметили, когда это происходит», — говорится в отчете.

Клод также проявил некоторое любопытное поведение в своих путешествиях по Канто. В одном случае ИИ поднял рисунок, который, когда у всех его покемонов кончится здоровье, персонаж игрока «бежит» и вернется в центр покемонов.

Когда Клод застрял в пещере Mt. Moon, он ошибочно предположил, что, если он намеренно заставит всех своих покемонов в обморок, то в следующем городе он будет доставлен через пещеру в центр покемонов.

Однако это не так, как работает игра. Когда все ваши покемон умирают, вы возвращаетесь в любой центр покемонов, который вы использовали совсем недавно, а не ближайший географический. Зрители смотрели в ужасе, поскольку ИИ по сути пытался убить себя в игре.

Несмотря на свои недостатки, есть несколько способов, которыми ИИ может опережать людей. По состоянию на выпуск Gemini 2.5 Pro, ИИ может решить головоломки с впечатляющей точностью.

С некоторой человеческой помощью, ИИ создал агентские инструменты — побудили к экземплярам Gemini 2.5, ориентированных на конкретные задачи — для решения головоломок игры и найти эффективные маршруты для достижения пункта назначения.

«С помощью подсказки, описывающей физику валуна и описание того, как проверить действительный путь, Gemini 2.5 Pro может однозначить некоторые из этих сложных загадков валуна, которые необходимы для продвижения по победной дороге»,-говорится в отчете.

Поскольку Gemini 2.5 Pro проделал большую часть работы по созданию этих инструментов самостоятельно, Google предполагает, что текущая модель может быть способна создавать эти инструменты без вмешательства человека. Кто знает, может быть, Близнецы терапетируют себя в создании модуля «не панику».

Половина срочной оценки Вестминстера

Почтовое отделение: Полиция идентифицирует семь подозреваемых, связанных со скандалом Horizon | Великобритания новости

Ирландия регби: Лейнстер «никогда не может быть слишком сильным», — говорит режиссер Дэвид Хамфрис

Дикая борьба: Джейк Пол и Деонтей Уайлдер могут стать в будущем, говорит Стив Банс

Торговая война: британский автомобиль экспортирует в США вдвое в мае перед перемирием | Денежные новости

Британские и ирландские львы, 2025 год: культовая борьба Джорджа Норта на Израиль Фолау

RTL Group, чтобы купить Sky Deutschland | Денежные новости

Женский евро 2025: Safia Middleton-Patel On Life с аутизмом на поле и вне поля

Сэр Дэвид Мюррей извинится за продажу рейнджеров Крейгу Уайту

Экстремальная жара, плохие подачи и множество голов — Кубок мира клуба достигает на полпути

Золото сверкает, когда недоверие распространяется

Иск оспаривает новый закон штата Айдахо, который ограничивает выгоды для нелегальных иммигрантов