Operai's O3 Model Model ниже по эталону, чем первоначально подразумевая компания

Расхождение между результатами первой и третьей стороны для модели O3 AI от Operai- это поднимает вопросы о прозрачности и методах тестирования моделей.

Когда Openai обнародовал O3 в декабре, компания утверждала, что модель может ответить чуть более четверти вопросов на FrontierMath, сложном наборе математических проблем. Эта оценка поразила конкуренцию-следующая лучшая модель сумела правильно ответить только на 2% проблем FrontierMath.

«Сегодня все предложения там имеют менее 2% (на FrontierMath)», — сказал Марк Чен, директор Openai, Марк Чен. «Мы видим (внутренне), с O3 в агрессивных настройках вычислений времени испытания, мы можем получить более 25%».

Оказывается, эта цифра, вероятно, была верхней границей, достигнутой версией O3 с большим количеством вычислений, чем модель Openai, публично запущенная на прошлой неделе.

Epoch AI, исследовательский институт Frontiermath, опубликовал результаты своих независимых тестов O3 в пятницу. Эпоха обнаружила, что O3 набрал около 10%, что значительно ниже самых высоких показателей Openai.

Это не значит, что Openai лгал, как таковой. Результаты эталона, опубликованная в декабре, показывают более низкую оценку, которая соответствует наблюдаемой эпохе оценки. Epoch также отметил, что его настройка тестирования, вероятно, отличается от OpenAI, и что она использовала обновленное выпуск FrontierMath для его оценки.

«Разница между нашими результатами и OpenAI может быть связана с тем, что OpenAI оценивает с более мощным внутренним каркасом с использованием большего времени теста (вычисления) или потому, что эти результаты были запускаются на другой подмножеством FrontierMath (180 проблем в FrontierMath-2024-11-26 против 290 проблем в FrontierMath-2025-288-й-превзойдене») »,-написал Epoch.

Согласно сообщению о X от Arc Prize Foundation, организации, которая проверила предварительную версию O3, модель Public O3 «представляет собой другую модель (…), настроенную на использование чата/продукт», подтверждающий отчет Epoch.

«Все выпущенные вычислительные ярусы O3 меньше, чем версия, которую мы (эталонные)», — написал Arc Prize. Вообще говоря, можно ожидать, что более крупные вычислительные уровни достигнут лучших баллов.

Конечно, тот факт, что публичное выпуск O3 не достигает обещаний Openai, является чем-то вроде спорного моделя, поскольку модели компании O3-Mini-High и O4-Mini превосходят O3 на FrontierMath, и Openai планирует дебютировать более мощный вариант O3, O3-Pro, в ближайшие недели.

Однако это еще одно напоминание о том, что тесты ИИ лучше всего не принимаются по номинальной стоимости — особенно когда источник — это компания, имеющая услуги для продажи.

Брингеринг «противоречия» становится обычным явлением в индустрии ИИ, поскольку поставщики участвуют в гонках, чтобы захватить заголовки и MindShare с новыми моделями.

В январе Эпох подвергся критике за ожидание, чтобы раскрыть финансирование от OpenaI до тех пор, пока компания не объявила O3. Многие ученые, которые внесли свой вклад в FrontierMath, не были проинформированы об участии Openai, пока он не стал обнародовать.

Совсем недавно XAI Elon Musk был обвинен в публикации вводящих в заблуждение эталонных диаграмм для своей последней модели искусственного интеллекта, Grok 3. Только в этом месяце Meta призналась, что рекламировал баллы для версии модели, которая отличалась от той, которую компания предоставила разработчикам.

Previous post У Челси есть гора, чтобы взбираться, когда снова показывает каблук Барса Ахиллес
Next post Футбольные сплетни: Саймонс Диас, Джота, Конат, Салах, Ксави, Кин, Шинсни, Левандовски