DeepSeek's Distilling Новая модель R1 AI может работать на одном графическом процессоре

Обновленная модель AI Deepseek Descowing AI может привлечь основную часть внимания сообщества ИИ на этой неделе. Но китайская лаборатория ИИ также выпустила меньшую «дистиллированную» версию своей новой R1, DeepSeek-R1-0528-Qwen3-8b, которая, как утверждает DeepSeek, бьют модели сравнительно размером по определенным критериям.

Меньший обновленный R1, который был построен с использованием модели QWEN3-8B ​​Alibaba, запущенной в мае в качестве основы, работает лучше, чем Google Gemini 2.5 Flash на AIME 2025, набор сложных математических вопросов.

DeepSeek-R1-0528-QWEN3-8B ​​также почти соответствует недавно выпущенной модели PHI 4 Plus Plus Microsoft Plus на другом тесте по математике, HMMT.

Так называемые дистиллированные модели, такие как DeepSeek-R1-0528-QWEN3-8B, как правило, менее способны, чем их полноразмерные аналоги. С другой стороны, они гораздо менее требуют вычислительно. Согласно облачной платформе Nodeshift, QWEN3-8B ​​требует GPU с 40 ГБ-80 ГБ оперативной памяти (например, NVIDIA H100). Новый R1 в полноразмерном R1 около десятка 80 ГБ.

DeepSeek обучил DeepSeek-R1-0528-QWEN3-8B, взяв текст, сгенерированный обновленным R1, и используя его для тонкой настройки QWEN3-8B. На специальной веб-странице для модели на платформе AI Dev, обнимающего лицо, DeepSeek описывает DeepSeek-R1-0528-QWEN3-8B ​​как «как для академических исследований моделей рассуждений, так и для промышленного развития, ориентированных на мелкие модели».

DeepSeek-R1-0528-QWEN3-8B ​​доступен по разрешающей лицензии MIT, что означает, что его можно использовать в коммерческом порядке без ограничений. Несколько хозяев, включая LM Studio, уже предлагают модель через API.

Previous post Казначейство, чтобы распорядиться окончательными акциями в залог Natwest Group | Денежные новости
Next post Почему вам нужно влюбиться в квантовую физику перед следующей революцией