Небольшая китайская лаборатория искусственного интеллекта на этой неделе ошеломила мир, раскрыв технический рецепт своей передовой модели, превратив своего затворнического лидера в национального героя, который бросил вызов попыткам США остановить высокотехнологичные амбиции Китая.
DeepSeek, основанный менеджером хедж -фондов Ляном Венфэном, выпустил свою модель R1 в понедельник, объяснив в подробном документе, как построить большую языковую модель на загрузочном бюджете, который может автоматически учиться и улучшаться без человеческого контроля.
Американские компании, включая OpenAI и Google DeepMind, разработали разработки в области моделей рассуждений, относительно новую область исследований искусственного интеллекта, которая пытается заставить модели соответствовать человеческим когнитивным возможностям. В декабре базирующаяся в Сан-Франциско Openai выпустила полную версию своей модели O1, но держала свои методы в секрете.
Релиз Deepseek R1 вызвал бешеные дебаты в Силиконовой долине о том, могут ли лучшие ресурсы американских компаний, в том числе Meta и Anpropic, защитить их техническое преимущество.
Тем временем Лян стал центром национальной гордости дома. На этой неделе он был единственным лидером искусственного интеллекта, выбранным для участия в рекламной встрече предпринимателей со вторым мощным лидером страны Ли Цян. Предпринимателям было приказано «сосредоточиться на усилиях по прорыву ключевыми основными технологиями».
В 2021 году Лян начал покупать тысячи графических обработок NVIDIA для своего проекта по боковым вопросам AI, в то время как он управлял своим квантовым торговым фондом. Инсайдеры отрасли рассматривали его как эксцентричные действия миллиардера, ищущего нового хобби.
«Когда мы впервые встретились с ним, он был этим очень занудным парнем с ужасной прической, рассказывающей о создании кластера 10 000 человек для обучения своих собственных моделей. Мы не воспринимали его всерьез », — сказал один из деловых партнеров Ляна.
«Он не мог сформулировать свое видение, кроме как сказать: я хочу построить это, и это будет изменение игры. Мы думали, что это было возможно только от таких гигантов, как Байтеданс и Алибаба », — добавил человек.
Статус Ляна как постороннего в области ИИ был неожиданным источником силы. В High-Flyer он создал целое состояние, используя ИИ и алгоритмы для выявления закономерностей, которые могут повлиять на цены на акции. Его команда стала искусной в использовании чипов NVIDIA для торговли денег. В 2023 году он запустил DeepSeek, объявив о своем намерении разработать ИИ на уровне человека.
«Лян построил исключительную команду по инфраструктуре, которая действительно понимает, как работают чипы», — сказал один из основателей компании Rival LLM. «Он взял с собой своих лучших людей из хедж -фонда в DeepSeek».
После того, как Вашингтон запретил Nvidia экспортировать свои самые мощные чипы в Китай, местные компании по искусственному ИИ были вынуждены найти инновационные способы максимизировать вычислительную мощь ограниченного количества чипов на суше — проблема команды Ляна уже знала, как решить.
«Инженеры Deepseek знают, как разблокировать потенциал этих графических процессоров, даже если они не являются современными», — сказал один из исследователей ИИ, близкого к компании.
Инсайдеры промышленности говорят, что особое внимание DeepSeek на исследования делает его опасным конкурентом, потому что он готов поделиться своими прорывами, а не защищать их за коммерческие выгоды. DeepSeek не собрал деньги из внешних средств и сделал значительные шаги, чтобы монетизировать свои модели.
«DeepSeek управляется как первые дни DeepMind», — сказал один из ИИ инвестор в Пекин. «Он сосредоточен исключительно на исследованиях и инженерии».
Лян, который лично участвует в исследованиях DeepSeek, использует вырученные средства от своей торговли хедж -фондом, чтобы выплатить лучшие зарплаты за лучшие таланты ИИ. Наряду с Tiktok-владельцем Байтедэнс, DeepSeek известен тем, что дает наибольшее вознаграждение инженерам ИИ в Китае, а сотрудники находятся в офисах в Ханчжоу и Пекине.
«Офисы DeepSeek чувствуют себя как университетский кампус для серьезных исследователей», — сказал деловой партнер. «Команда верит в видении Ляна: чтобы показать миру, что китайцы могут быть креативными и построить что -то из нуля».
DeepSeek и High-Flyer не ответили на запрос о комментариях.
Лян назвал DeepSeek как уникальную «местную» компанию, укомплектованную доктором наук из лучших китайских школ, Peking, Tsinghua и Beihang Universites, а не экспертов из американских учреждений.
В интервью в прошлом году он сказал, что его основная команда «не имела людей, которые вернулись из -за рубежа. Они все местные. Полем Полем Мы должны развивать лучшие таланты сами ». Личность Deepseek как чисто китайской компании LLM выиграла ее похвалы дома.
Deepseek утверждал, что использовал всего 2 048 Nvidia H800 и 5,6 млн. Долл. США для обучения модели с параметрами 671 млрд. Параметров, часть того, что OpenAI и Google потратили на обучение моделей сравнительно размера.
Ritwik Gupta, исследователь политики ИИ в Калифорнийском университете в Беркли, сказал, что недавние выпуски Deepseek демонстрируют, что «нет рва, когда речь идет о возможностях ИИ».
«Первый человек, который обучает моделей, должен потратить много ресурсов, чтобы добраться туда», — сказал он. «Но второй двигатель может попасть туда дешевле и быстрее».
Гупта добавил, что в Китае было гораздо больше талантов инженеров систем, чем США, которые понимают, как лучше использовать компьютерные ресурсы для более дешевого обучения и запуска моделей.
Инсайдеры отрасли говорят, что, хотя DeepSeek показал впечатляющие результаты с ограниченными ресурсами, остается открытым вопросом, может ли он оставаться конкурентоспособным по мере развития отрасли.
Возвращение в High-Flyer, его большой покровитель, отставал в 2024 году, который один человек, близкий к Ляну, обвинил в том, что внимание основателя в основном сосредоточено на DeepSeek.
Его соперники США не стоят на месте. Они строят мега «кластеры» чипов Nvidia следующего поколения Blackwell, создавая вычислительную силу, которая угрожает вновь создать разрыв в производительности с китайскими конкурентами.
На этой неделе Openai заявила, что создает совместное предприятие с Японским софтбанком, получившим название Stargate, с планами потратить не менее 100 миллиардов долларов на инфраструктуру ИИ в США. XAI Elon Musk значительно расширяет свой суперкомпьютер Colossus, чтобы содержать более 1 млн графических процессоров, чтобы помочь обучить свои модели Grok AI.
«Deepseek имеет один из крупнейших передовых компьютерных кластеров в Китае», — сказал деловой партнер Liang. «У них достаточно емкости, но не намного дольше».
Дополнительная отчетность Вэньджи Дин в Пекине