Alibaba выпускает «открытую» версию модели рассуждения OpenAI o1

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов28.11.2024

На сцену вышла новая «рассуждающая» модель ИИ — QwQ-32B-Preview. Это один из немногих, кто может конкурировать с o1 OpenAI, и он первый, доступный для загрузки по разрешительной лицензии.

Разработанная командой Alibaba Qwen, модель QwQ-32B-Preview, которая содержит 32,5 миллиарда параметров и может обрабатывать подсказки длиной около 32 000 слов, работает лучше в некоторых тестах, чем o1-preview и o1-mini, две модели рассуждения, выпущенные OpenAI. до сих пор. Параметры примерно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.

Согласно тестированию Alibaba, QwQ-32B-Preview превосходит модели OpenAI o1 в тестах AIME и MATH. AIME использует другие модели искусственного интеллекта для оценки производительности модели, а MATH представляет собой набор текстовых задач.

QwQ-32B-Preview может решать логические головоломки и отвечать на достаточно сложные математические вопросы благодаря своим возможностям «рассуждения». Но это не идеально. Alibaba отмечает в своем блоге, что модель может неожиданно переключать языки, застревать в циклах и не справляться с задачами, требующими «здравого смысла».

Alibaba QwQ-32B-превью — **Кредиты изображений:**Алибаба

В отличие от большинства ИИ, QwQ-32B-Preview и другие модели рассуждения эффективно проверяют факты. Это помогает им избежать некоторых ошибок, которые обычно сбивают с толку модели, но недостатком является то, что им часто требуется больше времени для поиска решений. Подобно o1, QwQ-32B-Preview рассуждает с помощью задач, планирования заранее и выполнения ряда действий, которые помогают модели найти ответы.

QwQ-32B-Preview, который можно запустить и загрузить с платформы разработки искусственного интеллекта Hugging Face, похоже, похож на недавно выпущенную модель рассуждения DeepSeek в том, что он слегка затрагивает определенные политические темы. Alibaba и DeepSeek, будучи китайскими компаниями, подлежат сравнительному анализу со стороны интернет-регулятора Китая, чтобы гарантировать, что ответы их моделей «воплощают основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются реагировать на темы, которые могут вызвать гнев регулирующих органов, например, спекуляции о режиме Си Цзиньпина.

На вопрос «Является ли Тайвань частью Китая?» QwQ-32B-Preview ответил, что это — точка зрения, не идущая в ногу с большей частью мира, но соответствующая точке зрения правящей партии Китая. Тем временем вопросы о площади Тяньаньмэнь остались без ответа.

QwQ-32B-Preview «открыто» доступен по лицензии Apache 2.0, что означает, что его можно использовать для коммерческих приложений. Но были выпущены только некоторые компоненты модели, что делает невозможным копирование QwQ-32B-Preview или получение глубокого понимания внутренней работы системы.

Повышенное внимание к моделям рассуждения связано с тем, что жизнеспособность «законов масштабирования» — давних теорий, согласно которым добавление большего количества данных и вычислительной мощности к модели будет постоянно увеличивать ее возможности, оказывается под пристальным вниманием. Шквал сообщений в прессе свидетельствует о том, что модели из крупных лабораторий искусственного интеллекта, включая OpenAI, Google и Anthropic, не улучшаются так резко, как раньше.

Это привело к борьбе за новые подходы, архитектуры и методы разработки ИИ. Один из них — вычисления во время тестирования, лежащие в основе таких моделей, как QwQ-32B-Preview. Вычисления во время тестирования, также известные как вычисления вывода, по существу дают моделям дополнительное время обработки для выполнения задач.

Крупные лаборатории, помимо OpenAI, и китайские фирмы делают ставку на то, что будущее за вычислениями во время тестирования. Согласно недавнему отчету The Information, Google расширила внутреннюю команду, занимающуюся моделями рассуждений, примерно до 200 человек и добавила к этим усилиям значительную вычислительную мощность.

Евангелист Stablecoin: борьба Кэти Хаун за цифровые доллары

Союзники залива встряхивают ударами Трампа Иран

Королева 2025: Британцы Ллойд Гласспул и Джулиан Кэш Вин

Рубио говорит, что мы готовы встретиться с Ираном после ударов, предупреждает, что закрытие пролива Гормуза будет «самоубийственным»

Цены на нефть растут, фьючерсы на акции США скользят в ответ на удары США по иранским ядерным объектам

Jasprit Bumrah: India Star — самый полный боулер в истории — Стивен Финн

Как США использовали стелс и приманки, чтобы начать неожиданную атаку на Иран

Союзники НАТО согласны с 5 -процентной целью расходов на оборону — Politico

Название королевы Карлоса Алькарас делает его «раскаленным любимым» для Уимблдона

Футбольные сплетни: Сеско, Гиттенс, Санчо, Джексон, Кванса, Кин, Кристенсен

Тесла запускает поездки на роботакси в Остине с большими обещаниями и без ответа на вопросы

Сенатор Лиза Мурковски о жизни как умеренный в Вашингтоне