Nvidia занимается моделями мира — моделями искусственного интеллекта, которые черпают вдохновение из ментальных моделей мира, которые люди разрабатывают естественным путем.
На выставке CES 2025 в Лас-Вегасе компания объявила, что выкладывает в открытый доступ семейство мировых моделей, которые могут прогнозировать и генерировать видеоролики с учетом физики. Nvidia называет это семейство Cosmos World Foundation Models или сокращенно Cosmos WFM.
Модели, которые можно настроить для конкретных приложений, доступны в каталогах Nvidia API и NGC, на GitHub и на платформе разработки искусственного интеллекта Hugging Face.
«Nvidia предоставляет первую волну Cosmos WFM для физического моделирования и генерации синтетических данных», — написала компания в сообщении в блоге, предоставленном TechCrunch. «Исследователи и разработчики, независимо от размера их компании, могут свободно использовать модели Cosmos в соответствии с разрешительной лицензией Nvidia на открытую модель, которая разрешает коммерческое использование».
В семействе Cosmos WFM имеется ряд моделей, разделенных на три категории: Nano для приложений с низкой задержкой и работой в реальном времени, Super для «высокопроизводительных базовых» моделей и Ultra для максимального качества и точности вывода.
Размер моделей варьируется от 4 до 14 миллиардов параметров, причем Nano — самый маленький, а Ultra — самый большой. Параметры примерно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.
В рамках Cosmos WFM Nvidia также выпускает «модель повышения дискретизации», видеодекодер, оптимизированный для дополненной реальности, модели ограждений для обеспечения ответственного использования, а также точно настроенные модели для таких приложений, как генерация данных датчиков для разработки беспилотных транспортных средств. . По словам Nvidia, они, как и другие модели Cosmos WFM, были обучены на 9000 триллионах токенов на основе 20 миллионов часов реальных человеческих взаимодействий, данных об окружающей среде, промышленности, робототехнике и вождении. (В ИИ «токены» представляют собой биты необработанных данных — в данном случае видеоматериалов.)
Nvidia не сообщила, откуда взялись эти данные об обучении, но по крайней мере в одном отчете (и судебном иске) утверждается, что компания без разрешения обучалась на видео YouTube, защищенных авторским правом.
Когда представитель Nvidia обратился к TechCrunch за комментариями, он сообщил, что Cosmos «не предназначен для копирования или нарушения каких-либо защищенных произведений».
«Космос учится так же, как учатся люди», — сказал представитель. «Чтобы помочь Cosmos учиться, мы собрали данные из различных государственных и частных источников и уверены, что наше использование данных соответствует как букве, так и духу закона. Факты о том, как устроен мир, — которые изучают модели Cosmos — не защищены авторским правом и не подлежат контролю со стороны какого-либо отдельного автора или компании».
Если оставить в стороне тот факт, что такие модели, как Cosmos, на самом деле не учатся так, как учатся люди, эксперты по авторскому праву говорят, что претензии, подобные заявлению Nvidia, которые опираются на правовую доктрину добросовестного использования, могут не выдержать судебной проверки. Победят ли эти компании, во многом будет зависеть от того, как суды примут решение о добросовестном использовании, которое позволяет использовать произведения, защищенные авторским правом, для создания чего-то нового, если это преобразует, применимо к обучению ИИ.
Nvidia заявила, что модели Cosmos WFM, учитывая текстовые или видеокадры, могут генерировать «управляемые, высококачественные» синтетические данные для начальной подготовки моделей для робототехники, беспилотных автомобилей и многого другого.
«Набор открытых моделей Nvidia Cosmos означает, что разработчики могут настраивать WFM с помощью наборов данных, таких как видеозаписи поездок автономных транспортных средств или роботов, перемещающихся по складу», — написала Nvidia в пресс-релизе. «WFM Cosmos специально созданы для исследований и разработок физического искусственного интеллекта и могут генерировать физические видео на основе комбинации входных данных, таких как текст, изображения и видео, а также датчиков робота или данных о движении».
Nvidia сообщила, что такие компании, как Waabi, Wayve, Fortellix и Uber, уже взяли на себя обязательство опробовать Cosmos WFM для различных вариантов использования: от поиска и курирования видео до создания моделей искусственного интеллекта для беспилотных транспортных средств.
«Генераторный искусственный интеллект станет основой будущего мобильности, требуя как обширных данных, так и очень мощных вычислений», — заявила в своем заявлении генеральный директор Uber Дара Хосровшахи. «Работая с Nvidia, мы уверены, что сможем ускорить разработку безопасных и масштабируемых решений для автономного вождения для отрасли».
Важно отметить, что модели мира Nvidia не являются «открытыми» в строгом смысле этого слова. Чтобы соответствовать одному широко распространенному определению ИИ с «открытым исходным кодом», модель ИИ должна предоставлять достаточно информации о своей конструкции, чтобы человек мог «существенно» воссоздать ее, а также раскрывать любые соответствующие подробности о ее обучающих данных, включая происхождение и как данные могут быть получены или лицензированы.
Nvidia не опубликовала подробные данные об обучении Cosmos WFM и не предоставила все инструменты, необходимые для воссоздания моделей с нуля. Вероятно, именно поэтому технологический гигант называет свои модели «открытыми», а не открытыми исходными кодами.
«Мы очень надеемся, что Cosmos сделает для мира робототехники и промышленного искусственного интеллекта то же, что Llama… сделала для предприятий», — заявил генеральный директор Nvidia Дженсен Хуанг на сцене во время пресс-конференции в понедельник.