Operai's O3 Model Model ниже по эталону, чем первоначально подразумевая компания

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов21.04.2025

Расхождение между результатами первой и третьей стороны для модели O3 AI от Operai- это поднимает вопросы о прозрачности и методах тестирования моделей.

Когда Openai обнародовал O3 в декабре, компания утверждала, что модель может ответить чуть более четверти вопросов на FrontierMath, сложном наборе математических проблем. Эта оценка поразила конкуренцию-следующая лучшая модель сумела правильно ответить только на 2% проблем FrontierMath.

«Сегодня все предложения там имеют менее 2% (на FrontierMath)», — сказал Марк Чен, директор Openai, Марк Чен. «Мы видим (внутренне), с O3 в агрессивных настройках вычислений времени испытания, мы можем получить более 25%».

Оказывается, эта цифра, вероятно, была верхней границей, достигнутой версией O3 с большим количеством вычислений, чем модель Openai, публично запущенная на прошлой неделе.

Epoch AI, исследовательский институт Frontiermath, опубликовал результаты своих независимых тестов O3 в пятницу. Эпоха обнаружила, что O3 набрал около 10%, что значительно ниже самых высоких показателей Openai.

OpenAI выпустила O3, их долгожданную модель рассуждений, наряду с O4-Mini, меньшей и более дешевой моделью, которая сменила O3-Mini.

Мы оценили новые модели на нашем наборе математических и научных показателей. Приводит к потоке! pic.twitter.com/5gbtzkey1b

— Epoch AI (@Epochairesearch) 18 апреля 2025 года

Это не значит, что Openai лгал, как таковой. Результаты эталона, опубликованная в декабре, показывают более низкую оценку, которая соответствует наблюдаемой эпохе оценки. Epoch также отметил, что его настройка тестирования, вероятно, отличается от OpenAI, и что она использовала обновленное выпуск FrontierMath для его оценки.

«Разница между нашими результатами и OpenAI может быть связана с тем, что OpenAI оценивает с более мощным внутренним каркасом с использованием большего времени теста (вычисления) или потому, что эти результаты были запускаются на другой подмножеством FrontierMath (180 проблем в FrontierMath-2024-11-26 против 290 проблем в FrontierMath-2025-288-й-превзойдене») »,-написал Epoch.

Согласно сообщению о X от Arc Prize Foundation, организации, которая проверила предварительную версию O3, модель Public O3 «представляет собой другую модель (…), настроенную на использование чата/продукт», подтверждающий отчет Epoch.

«Все выпущенные вычислительные ярусы O3 меньше, чем версия, которую мы (эталонные)», — написал Arc Prize. Вообще говоря, можно ожидать, что более крупные вычислительные уровни достигнут лучших баллов.

Конечно, тот факт, что публичное выпуск O3 не достигает обещаний Openai, является чем-то вроде спорного моделя, поскольку модели компании O3-Mini-High и O4-Mini превосходят O3 на FrontierMath, и Openai планирует дебютировать более мощный вариант O3, O3-Pro, в ближайшие недели.

Однако это еще одно напоминание о том, что тесты ИИ лучше всего не принимаются по номинальной стоимости — особенно когда источник — это компания, имеющая услуги для продажи.

Брингеринг «противоречия» становится обычным явлением в индустрии ИИ, поскольку поставщики участвуют в гонках, чтобы захватить заголовки и MindShare с новыми моделями.

В январе Эпох подвергся критике за ожидание, чтобы раскрыть финансирование от OpenaI до тех пор, пока компания не объявила O3. Многие ученые, которые внесли свой вклад в FrontierMath, не были проинформированы об участии Openai, пока он не стал обнародовать.

Совсем недавно XAI Elon Musk был обвинен в публикации вводящих в заблуждение эталонных диаграмм для своей последней модели искусственного интеллекта, Grok 3. Только в этом месяце Meta призналась, что рекламировал баллы для версии модели, которая отличалась от той, которую компания предоставила разработчикам.

Ронни О'Салливан Кью: как производится сигнал полуфиналиста чемпионата мира

Джастин Клуйверт на европейских и премьер -лиге Борнмута

Реджи Уолш: Челси подросток становится третьим младшим игроком клуба

Будьте готовы к корпоративному спешке за наличные

Легенде футбола Дэвиду Бекхэму исполняется 50 лет — кто был его самыми ценными в истории товарищах по команде?

Основное внимание Лутона на лом для выживания и движения стадиона

Глобальные акции ралли, так как Пекин рассматривает торговые переговоры в США

NatWest видит, что прибыль увеличивается на 36%, поскольку приватизация вырисовывается | Денежные новости

JD Vance признает войну Путина в Украине не закончится «в ближайшее время» — Politico

Чемпионат: кому нужно то, что в последний день?

Женщины Бирмингема Сити: «Один большой толчок» в WSL возвращение для падших гигантов

Родни Макари: фанат детства стал менеджером, смотрящим на историю ирландского кубка с Dungannon Swifts