DeepSeek's Distilling Новая модель R1 AI может работать на одном графическом процессоре

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов29.05.2025

Обновленная модель AI Deepseek Descowing AI может привлечь основную часть внимания сообщества ИИ на этой неделе. Но китайская лаборатория ИИ также выпустила меньшую «дистиллированную» версию своей новой R1, DeepSeek-R1-0528-Qwen3-8b, которая, как утверждает DeepSeek, бьют модели сравнительно размером по определенным критериям.

Меньший обновленный R1, который был построен с использованием модели QWEN3-8B Alibaba, запущенной в мае в качестве основы, работает лучше, чем Google Gemini 2.5 Flash на AIME 2025, набор сложных математических вопросов.

DeepSeek-R1-0528-QWEN3-8B также почти соответствует недавно выпущенной модели PHI 4 Plus Plus Microsoft Plus на другом тесте по математике, HMMT.

Так называемые дистиллированные модели, такие как DeepSeek-R1-0528-QWEN3-8B, как правило, менее способны, чем их полноразмерные аналоги. С другой стороны, они гораздо менее требуют вычислительно. Согласно облачной платформе Nodeshift, QWEN3-8B требует GPU с 40 ГБ-80 ГБ оперативной памяти (например, NVIDIA H100). Новый R1 в полноразмерном R1 около десятка 80 ГБ.

DeepSeek обучил DeepSeek-R1-0528-QWEN3-8B, взяв текст, сгенерированный обновленным R1, и используя его для тонкой настройки QWEN3-8B. На специальной веб-странице для модели на платформе AI Dev, обнимающего лицо, DeepSeek описывает DeepSeek-R1-0528-QWEN3-8B как «как для академических исследований моделей рассуждений, так и для промышленного развития, ориентированных на мелкие модели».

DeepSeek-R1-0528-QWEN3-8B доступен по разрешающей лицензии MIT, что означает, что его можно использовать в коммерческом порядке без ограничений. Несколько хозяев, включая LM Studio, уже предлагают модель через API.

Waymo Limits Service перед сегодняшними протестами «Нет королей»

Великобритания, чтобы открыть национальное расследование бандов по уходу за детьми через несколько месяцев после мускуса Dustup — Politico

Трамп и Путин держат звонок, обсудите напряженность Ираля, Украина война

Halifax Panthers 46-24 London Roosters: Cheelchair Challenge Cup Title для Западной Йоркширской стороны после финала

Тысячи протестов против нас против «авторитарной» политики Трампа

Super League: Leeds Rhinos 36-12 Warrington Wolves — Кэмерон Смит пытается помочь в хости

Заинтересованное лицо в Миннесотских законодателя DFL, определено как Вэнс Боэльтер

Великобритания перемещает самолеты на Ближний Восток после угрозы Ирана

Как удалить данные 23 и

Иран удары оставляют израильтяне встряхнуть, но решительные

T20 Blast: Дербишир победил Лестершир по семи калиткам

Мелисса Хортман, законодатель Миннесоты, убитый в целевых расстрелах, помнят как преданного государственного служащего