Alibaba выпускает «открытую» версию модели рассуждения OpenAI o1

На сцену вышла новая «рассуждающая» модель ИИ — QwQ-32B-Preview. Это один из немногих, кто может конкурировать с o1 OpenAI, и он первый, доступный для загрузки по разрешительной лицензии.

Разработанная командой Alibaba Qwen, модель QwQ-32B-Preview, которая содержит 32,5 миллиарда параметров и может обрабатывать подсказки длиной около 32 000 слов, работает лучше в некоторых тестах, чем o1-preview и o1-mini, две модели рассуждения, выпущенные OpenAI. до сих пор. Параметры примерно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.

Согласно тестированию Alibaba, QwQ-32B-Preview превосходит модели OpenAI o1 в тестах AIME и MATH. AIME использует другие модели искусственного интеллекта для оценки производительности модели, а MATH представляет собой набор текстовых задач.

QwQ-32B-Preview может решать логические головоломки и отвечать на достаточно сложные математические вопросы благодаря своим возможностям «рассуждения». Но это не идеально. Alibaba отмечает в своем блоге, что модель может неожиданно переключать языки, застревать в циклах и не справляться с задачами, требующими «здравого смысла».

Alibaba QwQ-32B-превью
Кредиты изображений:Алибаба

В отличие от большинства ИИ, QwQ-32B-Preview и другие модели рассуждения эффективно проверяют факты. Это помогает им избежать некоторых ошибок, которые обычно сбивают с толку модели, но недостатком является то, что им часто требуется больше времени для поиска решений. Подобно o1, QwQ-32B-Preview рассуждает с помощью задач, планирования заранее и выполнения ряда действий, которые помогают модели найти ответы.

QwQ-32B-Preview, который можно запустить и загрузить с платформы разработки искусственного интеллекта Hugging Face, похоже, похож на недавно выпущенную модель рассуждения DeepSeek в том, что он слегка затрагивает определенные политические темы. Alibaba и DeepSeek, будучи китайскими компаниями, подлежат сравнительному анализу со стороны интернет-регулятора Китая, чтобы гарантировать, что ответы их моделей «воплощают основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются реагировать на темы, которые могут вызвать гнев регулирующих органов, например, спекуляции о режиме Си Цзиньпина.

Alibaba QwQ-32B-превью
Кредиты изображений:Алибаба

На вопрос «Является ли Тайвань частью Китая?» QwQ-32B-Preview ответил, что это — точка зрения, не идущая в ногу с большей частью мира, но соответствующая точке зрения правящей партии Китая. Тем временем вопросы о площади Тяньаньмэнь остались без ответа.

Alibaba QwQ-32B-превью
Кредиты изображений:Алибаба

QwQ-32B-Preview «открыто» доступен по лицензии Apache 2.0, что означает, что его можно использовать для коммерческих приложений. Но были выпущены только некоторые компоненты модели, что делает невозможным копирование QwQ-32B-Preview или получение глубокого понимания внутренней работы системы.

Повышенное внимание к моделям рассуждения связано с тем, что жизнеспособность «законов масштабирования» — давних теорий, согласно которым добавление большего количества данных и вычислительной мощности к модели будет постоянно увеличивать ее возможности, оказывается под пристальным вниманием. Шквал сообщений в прессе свидетельствует о том, что модели из крупных лабораторий искусственного интеллекта, включая OpenAI, Google и Anthropic, не улучшаются так резко, как раньше.

Это привело к борьбе за новые подходы, архитектуры и методы разработки ИИ. Один из них — вычисления во время тестирования, лежащие в основе таких моделей, как QwQ-32B-Preview. Вычисления во время тестирования, также известные как вычисления вывода, по существу дают моделям дополнительное время обработки для выполнения задач.

Крупные лаборатории, помимо OpenAI, и китайские фирмы делают ставку на то, что будущее за вычислениями во время тестирования. Согласно недавнему отчету The Information, Google расширила внутреннюю команду, занимающуюся моделями рассуждений, примерно до 200 человек и добавила к этим усилиям значительную вычислительную мощность.

Previous post США предлагают Украине снизить призывной возраст до 18 лет, чтобы остановить нехватку рабочей силы
Next post Рууд ван Нистелрой: «Лестер» собирается назначить голландца главным тренером вместо Стива Купера