DeepSeek стал вирусным.
Китайская лаборатория AI Deepseek ворвалась в основное сознание на этой неделе после того, как его приложение Chatbot поднялось на вершину диаграмм Apple App Store. Модели AI Deepseek, которые были обучены с использованием вычислительных методов, заставили аналитиков Уолл-стрит-и технологов-чтобы спросить, смогут ли США сохранить свое лидерство в гонке ИИ и будет ли вы поддержат спрос на чипы искусственного интеллекта.
Но откуда взялся DeepSeek, и как она так быстро поднялась до международной славы?
Deepseek's Trader Origins
DeepSeek поддерживается высококачественным капитальным управлением, китайским количественным хедж-фондом, который использует ИИ для информирования о своих торговых решениях.
Энтузиаст ИИ Лян Вэнфенг стал соучредителем «Высокоуров» в 2015 году. Венфенг, который, как сообщается, начал заниматься торговлей, в то время как студент из Университета Чжэцзян, запустил управление капиталом с высоким содержанием капитала в качестве хедж-фонда в 2019 году на разработке и развертывании алгоритмов ИИ.
В 2023 году High-Flyer основал Deepseek как лабораторию, посвященную исследованию инструментов ИИ, отдельно от его финансового бизнеса. С высоким содержанием в качестве одного из его инвесторов, лаборатория развернулась в своей собственной компании, также называемой DeepSeek.
С первого дня DeepSeek создал свои собственные кластеры центра обработки данных для обучения модели. Но, как и другие компании по искусственному искусству в Китае, DeepSeek пострадал от запретов на экспорт США на оборудовании. Чтобы обучить одну из своих более поздних моделей, компания была вынуждена использовать чипы Nvidia H800, менее мощную версию чипа, H100, доступной для американских компаний.
Говорят, что техническая команда Deepseek искажает Янг. Сообщается, что компания агрессивно набирает докторскую степень докторской степени исследователей ИИ из ведущих китайских университетов. DeepSeek также нанимает людей без какого -либо фона компьютерных наук, чтобы помочь своей технологии лучше понять широкий спектр предметов, согласно New York Times.
Сильные модели Deepseek
DeepSeek представила свой первый набор моделей-Deepseek Coder, Deepseek LLM и Deepseek Chat-в ноябре 2023 года. Но только в прошлой весне стартап выпустил свой семейство Deepseek-V2 следующего поколения. начал обращать внимание.
DeepSeek-V2, система общего назначения текста и анализа, хорошо выполнялась в различных критериях ИИ-и была намного дешевле запускаться, чем сопоставимые модели в то время. Он вынудил внутреннюю конкуренцию Deepseek, в том числе Bytedance и Alibaba, снизить цены на использование некоторых из их моделей и сделать других совершенно свободными.
DeepSeek-V3, запущенный в декабре 2024 года, только добавил к известности Deepseek.
Согласно внутреннему тесту DeepSeek, DeepSeek V3 превосходит как загружаемые, открыто доступные модели, такие как Meta Llama и «закрытые» модели, к которым можно получить только через API, такие как GPT-4O Openai.
Не менее впечатляющей является модель Deepseek R1 «рассуждения». Выпущенный в январе, DeepSeek утверждает, что R1 выступает так же, как и O1 Operai, на ключевых тестах.
Будучи моделью рассуждений, R1 эффективно проверяет факты, что помогает ему избежать некоторых ловушек, которые обычно отключают модели. Модели рассуждений занимают немного больше времени-обычно до минуты дольше-чтобы прийти к решениям по сравнению с типичной моделью, не являющейся рычагом. Плюсом является то, что они, как правило, более надежны в таких областях, как физика, наука и математика.
Однако есть недостаток R1, Deepseek V3 и других моделей Deepseek. Будучи китайскими, разработанным ИИ, они подвергаются сравнению интернет-регулятора Китая, чтобы гарантировать, что его ответы «воплощают основные социалистические ценности». Например, в приложении DeepSeek's Chatbot R1 не будет отвечать на вопросы о площади Тяньаньмэнь или автономии Тайваня.
Разрушительный подход
Если DeepSeek имеет бизнес -модель, неясно, что это такое модель. Компания оценивает свои продукты и услуги значительно ниже рыночной стоимости — и дает другим бесплатно.
Как говорит DeepSeek, прорывы эффективности позволили ему поддерживать экстремальную конкурентоспособность затрат. Однако некоторые эксперты оспаривают цифры, которые предоставила компания.
Как бы то ни было, разработчики обратились к моделям Deepseek, которые не являются открытым исходным кодом, так как фраза обычно понята, но доступна по разрешающим лицензиям, которые позволяют использовать коммерческое использование. По словам Клема Деланги, генерального директора Hugging Face, одной из платформ, размещенных моделей Deepseek, разработчики обнимающего лица создали более 500 «деривативных» моделей R1, которые собрали 2,5 миллиона загрузок вместе вместе.
Успех DeepSeek против более крупных и более известных соперников был описан как «обновленный ИИ» и открыл «новую эру искусственного хозяйства». Успех компании был, по крайней мере, отчасти ответственен за то, что цена акций Nvidia упала на 18% в понедельник, а также за то, что вы получили общественный ответ генерального директора Openai Сэма Альтмана.
Что касается того, что может сохранить будущее Deepseek, это не ясно. Улучшенные модели являются данными. Но правительство США, по -видимому, растет осторожность в отношении того, что оно считает вредным иностранным влиянием.
У TechCrunch есть информационный бюллетень, ориентированный на AI! Зарегистрируйтесь здесь, чтобы получить его в своем почтовом ящике каждую среду.