DeepSeek утверждает, что его модель рассуждения превосходит o1 OpenAI в некоторых тестах

Китайская лаборатория искусственного интеллекта DeepSeek выпустила открытую версию DeepSeek-R1, своей так называемой модели рассуждения, которая, по ее утверждению, работает так же хорошо, как и o1 OpenAI в некоторых тестах искусственного интеллекта.

R1 доступен на платформе разработки искусственного интеллекта Hugging Face под лицензией MIT, что означает, что его можно использовать в коммерческих целях без ограничений. По данным DeepSeek, R1 превосходит o1 по тестам AIME, MATH-500 и SWE-bench Verified. AIME использует другие модели для оценки производительности модели, а MATH-500 представляет собой набор текстовых задач. SWE-bench Verified, тем временем, фокусируется на задачах программирования.

Будучи моделью рассуждения, R1 эффективно проверяет себя, что помогает избежать некоторых ошибок, которые обычно сбивают с толку модели. Модели рассуждений требуют немного больше времени — обычно от нескольких секунд до минут — для принятия решений по сравнению с типичной моделью без рассуждений. Положительным моментом является то, что они, как правило, более надежны в таких областях, как физика, естественные науки и математика.

R1 содержит 671 миллиард параметров, говорится в техническом отчете DeepSeek. Параметры примерно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.

671 миллиард параметров — это огромно, но DeepSeek также выпустила «дистиллированные» версии R1 размером от 1,5 до 70 миллиардов параметров. Самый маленький может работать на ноутбуке. Что касается полной версии R1, то для нее требуется более мощное оборудование, но оно является доступен через API DeepSeek по ценам на 90–95% дешевле, чем o1 OpenAI.

У R1 есть и обратная сторона. Будучи китайской моделью, она подлежит сравнительному анализу со стороны интернет-регулятора Китая, чтобы гарантировать, что ее меры «воплощают основные социалистические ценности». R1 не будет отвечать на вопросы, например, о площади Тяньаньмэнь или автономии Тайваня.

Отказ от DeepSeek R1 — Фильтрация R1 в действии. **Кредиты изображений:**ДипСик

Многие китайские системы искусственного интеллекта, включая другие модели рассуждения, отказываются реагировать на темы, которые могут вызвать гнев регулирующих органов в стране, например, спекуляции о режиме Си Цзиньпина.

R1 появился через несколько дней после того, как уходящая администрация Байдена предложила ужесточить правила экспорта и ограничения на технологии искусственного интеллекта для китайских предприятий. Компаниям в Китае уже запретили покупать передовые чипы искусственного интеллекта, но если новые правила вступят в силу в том виде, в котором они написаны, компании столкнутся с более строгими ограничениями как на полупроводниковые технологии, так и на модели, необходимые для запуска сложных систем искусственного интеллекта.

В политическом документе на прошлой неделе OpenAI призвала правительство США поддержать развитие американского искусственного интеллекта, чтобы китайские модели не сравнялись с ними или не превзошли их по возможностям. В интервью The Information вице-президент OpenAI по политике Крис Лихейн выделил High Flyer Capital Management, корпоративную материнскую компанию DeepSeek, как организацию, вызывающую особую озабоченность.

На данный момент как минимум три китайские лаборатории — DeepSeek, Alibaba и Kimi, принадлежащая китайскому единорогу Moonshot AI — выпустили модели, которые, по их утверждениям, являются конкурентами o1. (Примечательно, что DeepSeek был первым — он объявил о предварительной версии R1 в конце ноября.) В сообщении на X Дин Болл, исследователь искусственного интеллекта из Университета Джорджа Мейсона, сказал, что эта тенденция предполагает, что китайские лаборатории искусственного интеллекта будут продолжать « быстрые последователи».

«Впечатляющая производительность дистиллированных моделей DeepSeek (…) означает, что очень способные рассуждения будут продолжать широко распространяться и их можно будет запускать на локальном оборудовании», — писал Болл, — «вдали от глаз любого режима контроля сверху вниз».

На чемпионате мира по Microsoft Excel, селфи и «хайповый» туннель

Эрстед объявляет о дальнейшем списании стоимости оффшорного ветроэнергетического бизнеса в США

Трамп подпишет указ о переименовании Мексиканского залива в Денали

Трамп не положил руку на Библию во время приведения к присяге на инаугурации

Какова ценность новой мемкоины Трампа?

Канцлер Рэйчел Ривз присоединится к знаменитостям и мировым лидерам на ВЭФ в Давосе, чтобы заручиться поддержкой экономики Великобритании | Денежные новости

Препараты для похудения снижают риск болезни Альцгеймера, показывает крупное исследование

С приходом Трампа Макрон намекнул, что целевой показатель расходов НАТО слишком низок

Исполняющий обязанности главы ФБР неожиданно уходит в отставку, поскольку кандидатура Трампа ожидает подтверждения

Смена инаугурационного режима Трампа

Норвегия прохладно отнеслась к требованию Трампа о значительном увеличении расходов на оборону – POLITICO

Инспектор объяснил задержки расследования крушения вертолета в Лестер Сити