
Китайская лаборатория создала, по-видимому, одну из самых мощных «открытых» моделей искусственного интеллекта на сегодняшний день.
Модель DeepSeek V3 была разработана компанией DeepSeek, занимающейся искусственным интеллектом, и выпущена в среду под разрешительной лицензией, которая позволяет разработчикам загружать и модифицировать ее для большинства приложений, включая коммерческие.
DeepSeek V3 может выполнять ряд текстовых задач и задач, таких как кодирование, перевод, написание эссе и электронных писем с помощью описательной подсказки.
Согласно внутреннему тестированию DeepSeek, DeepSeek V3 превосходит как загружаемые, «открыто» доступные модели, так и «закрытые» модели искусственного интеллекта, доступ к которым возможен только через API. В подмножестве соревнований по программированию, проводимых на Codeforces, платформе для соревнований по программированию, DeepSeek превосходит такие модели, как Llama 3.1 405B от Meta, GPT-4o от OpenAI и Qwen 2.5 72B от Alibaba.
DeepSeek V3 также побеждает конкурентов в тесте Aider Polgyglot, предназначенном, среди прочего, для измерения того, может ли модель успешно писать новый код, который интегрируется в существующий код.
ДипСик-В3!
60 токенов в секунду (в 3 раза быстрее, чем V2!)
Совместимость API не нарушена
Модели и документы с полностью открытым исходным кодом
Параметры 671B МО
37B активированных параметров
Обучение на высококачественных токенах 14,8T.Превосходит Llama 3.1 405b почти во всех тестах pic.twitter.com/jVwJU07dqf
— Пухлый
(@kimmonismus) 26 декабря 2024 г.
DeepSeek утверждает, что DeepSeek V3 был обучен на наборе данных из 14,8 триллионов токенов. В науке о данных токены используются для представления битов необработанных данных; 1 миллион токенов равен примерно 750 000 слов.
Масштабным является не только тренировочный набор. DeepSeek V3 огромен по размеру: 685 миллиардов параметров. (Параметры — это внутренние переменные, которые модели используют для прогнозирования или принятия решений.) Это примерно в 1,6 раза больше размера Llama 3.1 405B, который имеет 405 миллиардов параметров.
Количество параметров часто (но не всегда) коррелирует с навыками; модели с большим количеством параметров имеют тенденцию превосходить модели с меньшим количеством параметров. Но для работы больших моделей также требуется более мощное оборудование. Неоптимизированной версии DeepSeek V3 потребуется набор высокопроизводительных графических процессоров, чтобы отвечать на вопросы с разумной скоростью.
Хотя это и не самая практичная модель, DeepSeek V3 в некотором смысле является достижением. DeepSeek смог обучить модель, используя центр обработки данных с графическими процессорами Nvidia H800 всего за два месяца — графическими процессорами, закупку которых недавно запретило китайским компаниям Министерство торговли США. Компания также утверждает, что потратила всего 5,576 миллиона долларов на обучение DeepSeek V3, что составляет небольшую часть стоимости разработки таких моделей, как GPT-4 от OpenAI.
Обратной стороной является то, что политические взгляды модели немного фильтруются. Спросите DeepSeek V3, например, о площади Тяньаньмэнь, и он не ответит.
DeepSeek, будучи китайской компанией, подвергается сравнительному анализу со стороны интернет-регулятора Китая, чтобы гарантировать, что ответы ее моделей «воплощают основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются реагировать на темы, которые могут вызвать гнев регулирующих органов, например, спекуляции о режиме Си Цзиньпина.
DeepSeek, которая недавно представила DeepSeek-R1, ответ на модель «рассуждения» OpenAI o1, является любопытной организацией. Его поддерживает High-Flyer Capital Management, китайский количественный хедж-фонд, который использует искусственный интеллект для обоснования своих торговых решений.
Модели DeepSeek вынудили таких конкурентов, как ByteDance, Baidu и Alibaba, снизить цены за использование некоторых своих моделей, а другие сделать совершенно бесплатными.
High-Flyer создает собственные серверные кластеры для обучения моделей, один из последних из которых, как сообщается, имеет 10 000 графических процессоров Nvidia A100 и стоит 1 миллиард иен (~ 138 миллионов долларов). Компания High-Flyer, основанная Ляном Вэньфэном, выпускником компьютерных наук, стремится создать «сверхразумный» ИИ с помощью своей организации DeepSeek.
В интервью в начале этого года Лян назвал открытый исходный код «культурным актом» и охарактеризовал искусственный интеллект с закрытым исходным кодом, такой как OpenAI, «временным» рвом. «Даже подход OpenAI к закрытому исходному коду не помешал другим догнать его», — отметил он.
Действительно.