Организация, разрабатывающая математические тесты для ИИ, до недавнего времени не раскрывала, что получила финансирование от OpenAI, что вызвало обвинения в некорректности со стороны некоторых представителей сообщества ИИ.
Epoch AI, некоммерческая организация, финансируемая в основном Open Philanthropy, исследовательским и грантовым фондом, сообщила 20 декабря, что OpenAI поддержала создание FrontierMath. FrontierMath, тест с задачами экспертного уровня, предназначенный для измерения математических навыков ИИ, был одним из тестов, которые OpenAI использовала для демонстрации своего будущего флагманского ИИ o3.
В сообщении на форуме LessWrong подрядчик Epoch AI под ником Meemi говорит, что многие участники теста FrontierMath не были проинформированы об участии OpenAI, пока оно не было обнародовано.
«Сообщение об этом было непрозрачным», — написал Мими. «На мой взгляд, Epoch AI должна была раскрыть финансирование OpenAI, а подрядчики должны иметь прозрачную информацию о потенциале их работы, используемой для реализации возможностей, при выборе, работать ли над тестом».
В социальных сетях некоторые пользователи выразили обеспокоенность тем, что секретность может подорвать репутацию FrontierMath как объективного эталона. Помимо поддержки FrontierMath, OpenAI имела доступ ко многим проблемам и решениям в тесте — факт, который Epoch AI не разглашал до 20 декабря, когда было объявлено об o3.
В ответ на сообщение Мими Тамай Бесироглу, заместитель директора Epoch AI и один из сооснователей организации, заявил, что целостность FrontierMath не была нарушена, но признал, что Epoch AI «допустила ошибку», не будучи более прозрачный.
«Нам было запрещено раскрывать информацию о партнерстве примерно до момента запуска o3, и, оглядываясь назад, нам следовало вести более жесткие переговоры, чтобы как можно скорее стать прозрачными для участников тестов», — написал Бесироглу. «Наши математики заслуживают того, чтобы знать, кто может иметь доступ к их работам. Несмотря на то, что по контракту мы были ограничены в том, что мы могли сказать, мы должны были сделать прозрачность с нашими участниками необсуждаемой частью нашего соглашения с OpenAI».
Бесироглу добавил, что, хотя OpenAI имеет доступ к FrontierMath, у нее есть «устное соглашение» с Epoch AI не использовать набор задач FrontierMath для обучения своего ИИ. (Обучение ИИ FrontierMath было бы сродни обучению тесту.) У Epoch AI также есть «отдельный контрольный набор», который служит дополнительной защитой для независимой проверки результатов тестов FrontierMath, сказал Бесироглу.
«OpenAI… полностью поддержала наше решение сохранить отдельный, невидимый набор резервных копий», — написал Бесироглу.
Однако ведущий математик Epoch AI Эллот Глейзер отметил в сообщении на Reddit, что Epoch AI не может независимо проверить результаты OpenAI FrontierMath o3.
«Мое личное мнение таково, что оценка (OpenAI) является достоверной (т. е. они не обучались на наборе данных), и что у них нет стимула лгать о результатах внутреннего сравнительного анализа», — сказал Глейзер. «Однако мы не можем за них ручаться, пока не будет завершена наша независимая оценка».
Эта сага является еще одним примером проблемы разработки эмпирических тестов для оценки ИИ и обеспечения необходимых ресурсов для разработки тестов без создания ощущения конфликта интересов.