Новые рассуждения Openai модели искусственного искусства галлюцинируют больше

Недавно выпущенные модели AI Openai O3 и O4-Mini являются современными во многих отношениях. Тем не менее, новые модели все еще галлюцинируют или создают вещи — на самом деле они галлюцинируют более чем несколько старых моделей Openai.

Галлюцинации оказались одной из самых больших и трудных проблем в ИИ, что влияет на даже современные системы. Исторически, каждая новая модель немного улучшилась в отделе галлюцинации, галлюцинируя меньше, чем ее предшественник. Но это не так для O3 и O4-Mini.

Согласно внутренним тестам Openai, O3 и O4-Mini, которые являются так называемыми моделями рассуждений, Hallucinate чаще чем предыдущие модели рассуждений компании-O1, O1-Mini и O3-Mini-а также традиционные «не-исконные» модели Openai, такие как GPT-4O.

Возможно, что касается того, что производитель CHATGPT на самом деле не знает, почему это происходит.

В своем техническом отчете для O3 и O4-Mini Openai пишет, что «необходимы больше исследований», чтобы понять, почему галлюцинации ухудшаются, поскольку он расширяет модели рассуждений. O3 и O4-Mini работают лучше в некоторых областях, включая задачи, связанные с кодированием и математикой. Но поскольку они «предъявляют больше претензий в целом», их часто заставляют сделать «более точные претензии, а также более неточные/галлюцинированные претензии», согласно отчету.

OpenAI обнаружил, что O3 галлюцинировал в ответ на 33% вопросов по Personqa, внутреннему эталону компании для измерения точности знаний модели о людях. Это примерно вдвое превышает уровень галлюцинации предыдущих моделей рассуждений OpenAI, O1 и O3-Mini, которые набрали 16% и 14,8% соответственно. O4-Mini сделал еще хуже на Personqa-галлюцинируя 48% случаев.

Сторонние тестирование Transcue, некоммерческая исследовательская лаборатория ИИ, также обнаружили доказательства того, что O3 имеет тенденцию делать действия, которые он предпринимал в процессе достижения ответов. В одном примере Transluce наблюдаемого O3, утверждая, что он запустил код на MacBook Pro 2021 года «вне Chatgpt», затем скопировал цифры в свой ответ. Хотя у O3 есть доступ к некоторым инструментам, он не может этого сделать.

«Наша гипотеза заключается в том, что вид обучения подкреплению, используемого для моделей O-серии, может усиливать проблемы, которые обычно смягчаются (но не полностью стерты) стандартными пост-тренировочными трубопроводами»,-сказал Нил Чоудхури, исследователь «Перевод и бывший сотрудник Openai», в электронном письме TechCrunch.

Сара Шветтманн, соучредитель Transluce, добавила, что частота галлюцинации O3 может сделать его менее полезным, чем иначе.

Kian Katanforoosh, адъюнкт -профессор Стэнфорда и генеральный директор The Upskilling Startup Workera, сказал TechCrunch, что его команда уже тестирует O3 в своих рабочих процессах кодирования, и что они нашли, что на шаг выше конкуренции. Тем не менее, Katanforoosh говорит, что O3 имеет тенденцию галлюцинировать разбитые ссылки на веб -сайт. Модель предоставит ссылку, которая при нажатии не работает.

Галлюцинации могут помочь моделям прийти к интересным идеям и проявлять творческий подход в своем «мышлении», но они также делают некоторые модели сложной продажей для предприятий на рынках, где точность имеет первостепенное значение. Например, юридическая фирма, вероятно, не будет довольна моделью, которая вставляет множество фактических ошибок в контракты с клиентами.

Одним из многообещающих подходов к повышению точности моделей является предоставление им возможностей для поиска в Интернете. GPT-4O OpenAI с веб-поиском достигает 90% точности на SimpleQA. Потенциально, поиск может также улучшить показатели галлюцинации моделей рассуждений-по крайней мере, в тех случаях, когда пользователи готовы подвергать подсказки стороннему поисковому поставщику.

Если масштабирование моделей рассуждений действительно продолжит ухудшать галлюцинации, это сделает охоту на решение еще более срочным.

«Решение о галлюцинациях во всех наших моделях является постоянной областью исследований, и мы постоянно работаем над повышением их точности и надежности», — сказал представитель Openai Нико Феликс в электронном письме TechCrunch.

В прошлом году более широкая индустрия искусственного интеллекта разобралась, чтобы сосредоточиться на моделях рассуждений после того, как методы улучшения традиционных моделей ИИ начали показывать снижение доходности. Рассуждение улучшает производительность модели по различным задачам, не требуя огромных объемов вычислителей и данных во время обучения. Тем не менее, кажется, что рассуждение также приводит к более галлюцинированию — представляющую проблему.

Previous post Футбольные сплетни: Gibbs-White, Semenyo, Dibling, Gyokeres, Watkins
Next post Необычная распродажа в долларах повышает спектр инвесторов, теряющих доверие к США под Трампом