
Обновленная модель AI Deepseek Descowing AI может привлечь основную часть внимания сообщества ИИ на этой неделе. Но китайская лаборатория ИИ также выпустила меньшую «дистиллированную» версию своей новой R1, DeepSeek-R1-0528-Qwen3-8b, которая, как утверждает DeepSeek, бьют модели сравнительно размером по определенным критериям.
Меньший обновленный R1, который был построен с использованием модели QWEN3-8B Alibaba, запущенной в мае в качестве основы, работает лучше, чем Google Gemini 2.5 Flash на AIME 2025, набор сложных математических вопросов.
DeepSeek-R1-0528-QWEN3-8B также почти соответствует недавно выпущенной модели PHI 4 Plus Plus Microsoft Plus на другом тесте по математике, HMMT.
Так называемые дистиллированные модели, такие как DeepSeek-R1-0528-QWEN3-8B, как правило, менее способны, чем их полноразмерные аналоги. С другой стороны, они гораздо менее требуют вычислительно. Согласно облачной платформе Nodeshift, QWEN3-8B требует GPU с 40 ГБ-80 ГБ оперативной памяти (например, NVIDIA H100). Новый R1 в полноразмерном R1 около десятка 80 ГБ.
DeepSeek обучил DeepSeek-R1-0528-QWEN3-8B, взяв текст, сгенерированный обновленным R1, и используя его для тонкой настройки QWEN3-8B. На специальной веб-странице для модели на платформе AI Dev, обнимающего лицо, DeepSeek описывает DeepSeek-R1-0528-QWEN3-8B как «как для академических исследований моделей рассуждений, так и для промышленного развития, ориентированных на мелкие модели».
DeepSeek-R1-0528-QWEN3-8B доступен по разрешающей лицензии MIT, что означает, что его можно использовать в коммерческом порядке без ограничений. Несколько хозяев, включая LM Studio, уже предлагают модель через API.