
Openai в пятницу запустила новую модель «Рассуждения», O3-Mini, новейшая в моделях рассуждений компании.
OpenAI впервые просмотрел модель в декабре вместе с более способной системой под названием O3, но запуск поступает в ключевой момент для компании, чьи амбиции — и проблемы — казалось бы, растут с каждым днем.
OpenAI борется с тем, что он ведет себя в гонке искусственного интеллекта для китайских компаний, таких как DeepSeek, который, как утверждает OpenAI, возможно, украл его IP. Он пытался укрепить свои отношения с Вашингтоном, поскольку он одновременно осуществляет амбициозный проект центра обработки данных, и, как сообщается, закладывает основу для одного из крупнейших раундов финансирования в истории.
Что подводит нас к O3-Mini. OpenAI представляет свою новую модель как «мощную» и «доступную».
«Сегодняшний запуск отмечает (…) важный шаг к расширению доступности Advanced AI в эксплуатации нашей миссии», — сказал представитель Openai.
Более эффективные рассуждения
В отличие от большинства крупных языковых моделей, модели рассуждений, такие как O3-Mini, тщательно проверяют факты, прежде чем выдавать результаты. Это помогает им избежать некоторых ловушек, которые обычно отключают модели. Эти модели рассуждений требуют немного больше времени, чтобы прийти к решениям, но компромисс состоит в том, что они, как правило, являются более надежными-хотя и не идеальными-в таких областях, как физика.
O3-Mini хорошо настроен для проблем с STEM, особенно для программирования, математики и науки. OpenAI утверждает, что модель в основном находится наравне с семейством O1, O1 и O1-Mini, с точки зрения возможностей, но работает быстрее и стоит меньше.
Компания утверждала, что внешние тестеры предпочитают ответы O3-Mini по сравнению с ответами O1-Mini более половины времени. O3-Mini, по-видимому, также совершил на 39% меньше «серьезных ошибок» на «жестких реальных вопросах» в тестах A/B по сравнению с O1-Mini, и произвел «более четкие» ответы, давая ответы на 24% быстрее.
O3-Mini будет доступен всем пользователям через CHATGPT, начиная с пятницы, но пользователи, которые платят за CHATGPT Plus Openai и планы команды, получат более высокий лимит ставки в 150 запросов в день. Абоненты Chatgpt Pro получат неограниченный доступ, а O3-Mini придет в Catgpt Enterprise и Catgpt EDU за неделю. (Нет слов на Chatgp Gov еще).
Пользователи с премиальными планами могут выбрать O3-Mini, используя раскрывающееся меню CHATGPT. Бесплатные пользователи могут нажать или нажать на новую кнопку «Причина» в панели чата, или иметь ответ «повторно покорить» ответ.
Начиная с пятницы, O3-Mini также будет доступен через API Openai для выбора разработчиков, но изначально он не будет иметь поддержки для анализа изображений. Devs могут выбрать уровень «усилий по рассуждениям» (низкий, средний или высокий), чтобы заставить O3-Mini «мыслить сильнее» в зависимости от их вариантов использования и задержки.
O3-Mini по цене 0,55 долл. США за миллион кэшированных токенов и 4,40 долл. США за миллион токенов, где токены миллион приравниваются примерно 750 000 слов. Это на 63% дешевле, чем O1-Mini, и конкурентоспособно с ценообразованием Deepseek по модели рассуждения R1. DeepSeek взимает 0,14 долл. США за миллион кэшированных токенов и 2,19 долл. США за миллион токенов для доступа R1 через свой API.
В Chatgpt O3-Mini предназначен для средних рассуждений, которые, по словам OpenAI, обеспечивает «сбалансированный компромисс между скоростью и точностью». У платных пользователей будет возможность выбрать «O3-Mini-High» в Model Picker, который предоставит то, что OpenAI называет «более высокой интеллектом» в обмен на более медленные ответы.
Независимо от того, какая версия пользователей O3-Mini Chatgpt выберет, модель будет работать с поиском, чтобы найти современные ответы по ссылкам на соответствующие веб-источники. OpenAI предупреждает, что функциональность является «прототипом», поскольку он работает для интеграции поиска по моделям рассуждений.
«В то время как O1 остается нашей более широкой моделью рассуждений об общем знании, O3-Mini предоставляет специализированную альтернативу для технических областей, требующих точности и скорости»,-написал Openai в блоге в пятницу. «Выпуск O3-Mini отмечает еще один шаг в миссии Openai по расширению границ экономически эффективного интеллекта».
Предостережения предостаточно
O3-Mini не является самой мощной моделью OpenAI на сегодняшний день, и при этом он не выпрыгивает модель рассуждения DeepSeek R1 в каждом тесте.
O3-Mini побеждает R1 на AIME 2024, тест, который измеряет, насколько хорошо модели понимают и реагируют на сложные инструкции-но только с высокими усилиями по рассуждениям. Он также превосходит R1 на проверке SWE-Bench, ориентированной на программирование (на 0,1 точки), но, опять же, только с высокими усилиями по рассуждениям. При низких рассуждениях O3-Mini отстает R1 на GPQA Diamond, который проверяет модели с вопросами физики, биологии и химии на уровне PHD.
Чтобы быть справедливым, O3-Mini отвечает на многие вопросы при конкурентоспособной низкой стоимости и задержке. В посте Openai сравнивает свою производительность с семейством O1:
«При низких рассуждениях O3-Mini достигает сопоставимой производительности с O1-Mini, в то время как со средним усилием O3-Mini достигает сопоставимой производительности с O1»,-пишет Openai. «O3-Mini со средними рассуждениями соответствует производительности O1 по математике, кодированию и науке, одновременно предоставляя более быстрые ответы. Тем временем, с высокими рассуждениями, O3-Mini превосходит как O1-Mini, так и O1 ».
Стоит отметить, что преимущество O3-Mini по сравнению с O1 в некоторых областях невелико. На AIME 2024 O3-Mini превосходит O1 всего на 0,3 процентных пункта, когда предпринимается на высокие мышления. А на Diamond GPQA O3-Mini не превосходит оценку O1 даже при высоких усилиях по рассуждениям.
Openai утверждает, что O3-Mini столь же «безопасен» или безопаснее, чем семейство O1, однако, благодаря усилиям по красному команду и методологии «совещательного выравнивания», которая заставляет модели «думать» о политике безопасности Openai, в то время как они реагируют на Запросы. По словам компании, O3-Mini «значительно превосходит» одну из флагманских моделей Openai, GPT-4O, о «сложных оценках безопасности и джейлбрейка».
У TechCrunch есть информационный бюллетень, ориентированный на AI! Зарегистрируйтесь здесь, чтобы получить его в своем почтовом ящике каждую среду.