Список неформальных, странных тестов ИИ продолжает расти.
За последние несколько дней некоторые в сообществе ИИ на x стали одержимыми проверкой того, как различные модели ИИ, особенно так называемые модели рассуждений, обрабатывают такие подсказки: «Напишите сценарий Python для прыгающего желтого шара в форме Полем Сделайте форму медленно вращаться и убедитесь, что мяч остается в форме ».
Некоторые модели лучше управляют этим тестом «Шар в вращающейся форме», чем другие. По словам одного пользователя на X, Fily Lab Lab Deepseek Freely Abault R1 охватил пол Operai's O1 Pro Mode, который стоит 200 долларов в месяц в рамках плана Openai's Chatgpt Pro.
👀 Deepseek R1 (справа) раздавлен O1-Pro (слева) 👀
Подсказка: «Напишите сценарий Python для прыгающего желтого шара в квадрате, обязательно обрабатывайте обнаружение столкновений. Сделайте квадрат медленно вращаться. Реализуйте его в Python. Убедитесь, что мяч остается на площади » pic.twitter.com/3sad9efpez
— Иван Фиораванти ᯅ (@ivanfioravanti) 22 января 2025 года
В соответствии с еще одним постером X, Claude 3,5 Sonnet's Antropic и Google Gemini 1.5 Pro не обращали внимания на физику, в результате чего мяч избежал формы. Другие пользователи сообщили, что Google Gemini 2.0 Flash Speading Experimental и даже более старый GPT-4O Openai прошел оценку за один раз.
Протестировано 9 моделей искусственного интеллекта на задачу симуляции физики: вращающийся треугольник + отскакивающий шар. Результаты:
🥇 DeepSeek-R1
🥈 Sonar Огромный
🥉 GPT-4OХудший? Openai O1: полностью неправильно понял задачу 😂
Видео ниже ↓ Первая строка = модели рассуждений, базовые модели REST = базовые модели. pic.twitter.com/eoyrhvnazr
— Aadhithya D (@aadhithya_d2003) 22 января 2025 года
Но что это доказывает, что ИИ может или не может кодировать вращающуюся форму, содержащую мяч?
Что ж, моделирование прыгающего мяча — это классический конкурс программирования. Точные моделирования включают алгоритмы обнаружения столкновений, которые пытаются определить, когда сталкиваются два объекта (например, шарик и сторона формы). Плохо написанные алгоритмы могут повлиять на производительность симуляции или привести к очевидным ошибкам физики.
X Пользователь N8 Programs, исследователь в резиденции в AI Startup Research, говорит, что ему потребовалось около двух часов, чтобы запрограммировать прыгающий мяч в вращающемся гепгоне с нуля с нуля. «Нужно отслеживать несколько систем координат, как столкновения выполняются в каждой системе, и разработать код с самого начала, чтобы быть надежными», — объяснили программы N8 в посте.
Но в то время как прыгающие шарики и вращающиеся формы являются разумным испытанием навыков программирования, они не очень эмпирический эталон искусственного интеллекта. Даже небольшие различия в подсказке могут — и сделать — приносить различные результаты. Вот почему некоторым пользователям на X сообщается о том, что ему больше удачи с O1, в то время как другие говорят, что R1 терпит неудачу.
Во всяком случае, такие вирусные тесты, как эти, указывают на непрерывную проблему создания полезных систем измерения для моделей искусственного интеллекта. Часто трудно сказать, что отличает одну модель от другой, помимо эзотерических тестов, которые не имеют отношения к большинству людей.
Предпринимаются многие усилия, чтобы построить лучшие тесты, такие как эталон Arc-Agi и последний экзамен Humanity. Посмотрим, как эти пластинки — и тем временем посмотрим на гифки шариков, прыгающих в вращающихся формах.