
Ранее на этой неделе DeepSeek, хорошо финансируемая китайская лаборатория искусственного интеллекта, выпустила «открытую» модель искусственного интеллекта, которая превосходит многих конкурентов в популярных тестах. Модель DeepSeek V3 — большая, но эффективная, она легко справляется с текстовыми задачами, такими как программирование и написание эссе.
Кажется, он также думает, что это ChatGPT.
Сообщения на X и собственные тесты TechCrunch показывают, что DeepSeek V3 идентифицирует себя как ChatGPT, платформу чат-ботов OpenAI на базе искусственного интеллекта. На просьбу уточнить подробности представители DeepSeek V3 настаивают, что это версия модели OpenAI GPT-4, выпущенная в июне 2023 года.
Это фактически воспроизводится по состоянию на сегодняшний день. В 5 из 8 поколений DeepSeekV3 претендует на звание ChatGPT (v4), при этом заявляя, что это DeepSeekV3, только 3 раза.
Дает вам приблизительное представление о распределении некоторых обучающих данных. pic.twitter.com/ptIByn0lcv
— Лукас Бейер (bl16) (@giffmana) 27 декабря 2024 г.
Заблуждения уходят глубоко. Если вы зададите DeepSeek V3 вопрос об API DeepSeek, он даст вам инструкции по использованию OpenAI API. DeepSeek V3 даже рассказывает те же шутки, что и GPT-4, вплоть до кульминации.
Так что же происходит?
Такие модели, как ChatGPT и DeepSeek V3, являются статистическими системами. Обученные на миллиардах примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы — например, как «кому» в электронном письме обычно предшествует «это может касаться».
DeepSeek мало что раскрыл об источнике данных обучения DeepSeek V3. Но нет недостатка в общедоступных наборах данных, содержащих текст, сгенерированный GPT-4 через ChatGPT. Если бы DeepSeek V3 был обучен этому, модель могла бы запомнить некоторые выходные данные GPT-4 и теперь воспроизводит их дословно.
«Очевидно, что в какой-то момент модель получает необработанные ответы от ChatGPT, но неясно, где именно», — рассказал TechCrunch Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на искусственном интеллекте. «Это могло быть «случайно»… но, к сожалению, мы видели случаи, когда люди непосредственно обучали свои модели на результатах других моделей, чтобы попытаться использовать свои знания».
Кук отметил, что практика обучения моделей на результатах конкурирующих систем искусственного интеллекта может быть «очень плохой» для качества модели, поскольку может привести к галлюцинациям и вводящим в заблуждение ответам, подобным приведенным выше. «Подобно тому, как мы делаем фотокопию фотокопии, мы теряем все больше и больше информации и связи с реальностью», — сказал Кук.
Это также может противоречить условиям обслуживания этих систем.
Условия OpenAI запрещают пользователям ее продуктов, включая клиентов ChatGPT, использовать результаты для разработки моделей, конкурирующих с собственными моделями OpenAI.
OpenAI и DeepSeek не сразу ответили на запросы о комментариях. Тем не менее, генеральный директор OpenAI Сэм Альтман опубликовал в X Friday то, что выглядело как раскопки в отношении DeepSeek и других конкурентов.
«(Относительно) легко скопировать то, что, как вы знаете, работает», — написал Альтман. «Чрезвычайно трудно сделать что-то новое, рискованное и сложное, когда не знаешь, сработает ли это».
Конечно, DeepSeek V3 — далеко не первая модель, ошибочно идентифицировавшая себя. Gemini от Google и другие компании иногда заявляют, что являются конкурирующими моделями. Например, на китайском языке Gemini сообщает, что это чат-бот Wenxinyyan китайской компании Baidu.
И это потому, что Интернет, откуда компании, занимающиеся искусственным интеллектом, получают большую часть своих обучающих данных, засорен отбросами искусственного интеллекта. Контент-фермы используют ИИ для создания кликбейта. Боты наводняют Reddit и X. По одной из оценок, к 2026 году 90% Интернета может быть создано искусственным интеллектом.
Из-за этого «загрязнения», если хотите, стало довольно сложно тщательно фильтровать результаты ИИ из наборов обучающих данных.
Вполне возможно, что DeepSeek обучил DeepSeek V3 непосредственно на тексте, сгенерированном ChatGPT. В конце концов, Google когда-то обвиняли в том же.
Хейди Клааф, технический директор консалтинговой фирмы Trail of Bits, сказала, что экономия средств за счет «очистки» знаний существующей модели может быть привлекательной для разработчиков, независимо от рисков.
«Даже несмотря на то, что интернет-данные теперь переполнены результатами искусственного интеллекта, другие модели, которые случайно обучались на выходных данных ChatGPT или GPT-4, не обязательно будут демонстрировать выходные данные, напоминающие персонализированные сообщения OpenAI», — сказал Хлааф. «Если бы DeepSeek частично провел дистилляцию с использованием моделей OpenAI, это было бы неудивительно».
Однако более вероятно, что большое количество данных ChatGPT/GPT-4 попало в обучающий набор DeepSeek V3. Это означает, что модели нельзя доверять самоидентификацию. Но что еще больше беспокоит, так это возможность того, что DeepSeek V3, некритично поглощая и повторяя результаты GPT-4, может усугубить некоторые предвзятости и недостатки модели.