Что такое «мировые модели» ИИ и почему они важны?

Некоторые модели мира, также известные как симуляторы мира, рекламируются как следующее большое достижение в области искусственного интеллекта.

World Labs пионера искусственного интеллекта Фей-Фей Ли собрала 230 миллионов долларов для создания «больших моделей мира», а DeepMind наняла одного из создателей видеогенератора OpenAI, Sora, для работы над «симуляторами мира». (Сора был выпущен в понедельник; вот некоторые первые впечатления.)

Но какого черта являются эти вещи?

Модели мира черпают вдохновение из ментальных моделей мира, которые люди разрабатывают естественным путем. Наш мозг берет абстрактные представления наших органов чувств и формирует их в более конкретное понимание окружающего мира, создавая то, что мы называли «моделями» задолго до того, как ИИ принял эту фразу. Прогнозы, которые наш мозг делает на основе этих моделей, влияют на то, как мы воспринимаем мир.

В статье исследователей искусственного интеллекта Дэвида Ха и Юргена Шмидхубера приводится пример бейсбольного отбивающего. У игроков, отбивающих мяч, есть миллисекунды, чтобы решить, как размахивать битой, — это меньше, чем время, необходимое визуальным сигналам для достижения мозга. Причина, по которой они способны отбивать фастбол со скоростью 100 миль в час, заключается в том, что они могут инстинктивно предсказывать, куда полетит мяч, говорят Ха и Шмидхубер.

«У профессиональных игроков все это происходит подсознательно», — пишет исследовательский дуэт. «Их мышцы рефлекторно размахивают битой в нужное время и в нужном месте в соответствии с предсказаниями их внутренних моделей. Они могут быстро действовать в соответствии со своими предсказаниями будущего без необходимости сознательно развертывать возможные сценарии будущего для формирования плана».

Именно эти подсознательные аспекты моделей мира, которые некоторые считают предпосылками для интеллекта человеческого уровня.

Моделирование мира

Хотя эта концепция существует уже несколько десятилетий, мировые модели в последнее время приобрели популярность отчасти из-за их многообещающих приложений в области генеративного видео.

Большинство, если не все, видеоролики, созданные ИИ, выходят на территорию зловещей долины. Наблюдайте за ними достаточно долго и что-то странный произойдет, как конечности скручиваются и сливаются друг с другом.

Хотя генеративная модель, обученная на многолетних видео, могла бы точно предсказать, что баскетбольный мяч отскакивает, на самом деле она понятия не имеет, почему — точно так же, как языковые модели на самом деле не понимают концепции, лежащие в основе слов и фраз. Но мировая модель, имеющая хотя бы базовое представление о том, почему баскетбольный мяч так подпрыгивает, лучше покажет, как он это делает.

Чтобы обеспечить такое понимание, модели мира обучаются на ряде данных, включая фотографии, аудио, видео и текст, с целью создания внутренних представлений о том, как устроен мир, и способности рассуждать о последствиях действий. .

Взлетно-посадочная полоса Ген-3
Пример из модели генерации видео Gen-3 стартапа Runway, занимающейся искусственным интеллектом. Кредиты изображений:взлетно-посадочная полоса

«Зритель ожидает, что мир, который он смотрит, ведет себя так же, как и его реальность», — сказал Алекс Машрабов, бывший руководитель отдела искусственного интеллекта Snap и генеральный директор Higgsfield, которая занимается созданием генеративных моделей для видео. «Если перо падает под тяжестью наковальни или шар для боулинга взлетает на сотни футов в воздух, это раздражает и отвлекает зрителя от происходящего. При наличии сильной модели мира вместо того, чтобы создатель определял, как должен двигаться каждый объект — что утомительно, громоздко и требует неэффективного использования времени — модель это поймет».

Но создание более качественного видео — это лишь верхушка айсберга для мировых моделей. Исследователи, в том числе главный научный сотрудник Meta по искусственному интеллекту Янн Лекун, говорят, что эти модели когда-нибудь можно будет использовать для сложного прогнозирования и планирования как в цифровой, так и в физической сфере.

В своем выступлении ранее в этом году ЛеКун описал, как модель мира может помочь достичь желаемой цели посредством рассуждений. Модель с базовым представлением «мира» (например, видео грязной комнаты) с заданной целью (чистая комната) может предложить последовательность действий для достижения этой цели (подметать пылесосом, убирать посуду, выносить мусор) не потому, что он наблюдал эту закономерность, а потому, что на более глубоком уровне он знает, как перейти от грязного к чистому.

«Нам нужны машины, которые понимают мир; (машины), которые могут запоминать вещи, обладают интуицией и здравым смыслом — вещи, которые могут рассуждать и планировать на том же уровне, что и люди», — сказал ЛеКун. «Несмотря на то, что вы, возможно, слышали от некоторых самых энтузиастов, нынешние системы искусственного интеллекта ни на что из этого не способны».

По оценкам ЛеКуна, до тех моделей мира, которые он представляет, нам осталось как минимум десятилетие, сегодняшние модели мира показывают себя многообещающе в качестве симуляторов элементарной физики.

OpenAI Сора Майнкрафт
Сора управляет игроком в Minecraft и визуализирует мир. Кредиты изображений:ОпенАИ

OpenAI отмечает в своем блоге, что Сора, которую она считает моделью мира, может имитировать действия, подобные тому, как художник оставляет мазки кисти на холсте. Такие модели, как Сора и сама Сора, также могут эффективно имитировать видеоигры. Например, Sora может визуализировать пользовательский интерфейс и игровой мир в стиле Minecraft.

Модели мира будущего смогут создавать 3D-миры по запросу для игр, виртуальной фотографии и многого другого, заявил соучредитель World Labs Джастин Джонсон в эпизоде ​​подкаста a16z.

«У нас уже есть возможность создавать виртуальные интерактивные миры, но это стоит сотни и сотни миллионов долларов и массу времени на разработку», — сказал Джонсон. «(Модели мира) позволят вам не просто получить изображение или клип, но и полностью смоделированный, яркий и интерактивный трехмерный мир».

Высокие препятствия

Хотя эта концепция заманчива, на ее пути стоит множество технических проблем.

Обучение и запуск моделей мира требуют огромных вычислительных мощностей даже по сравнению с теми, которые в настоящее время используются генеративными моделями. Хотя некоторые из новейших языковых моделей могут работать на современном смартфоне, для обучения и работы Sora (вероятно, ранней мировой модели) потребуются тысячи графических процессоров, особенно если их использование станет обычным явлением.

Модели мира, как и все модели ИИ, также галлюцинируют и усваивают искажения в своих обучающих данных. Модель мира, обученная в основном на видео солнечной погоды в европейских городах, может с трудом понять или изобразить, например, корейские города в снежных условиях, или просто сделать это неправильно.

По словам Машрабова, общее отсутствие данных по обучению грозит усугубить эти проблемы.

«Мы видели, как модели действительно ограничиваются поколениями людей определенного типа или расы», — сказал он. «Данные обучения для модели мира должны быть достаточно широкими, чтобы охватить разнообразный набор сценариев, но также и очень специфичными для того, чтобы ИИ мог глубоко понимать нюансы этих сценариев».

В недавнем сообщении генеральный директор стартапа Runway, занимающегося искусственным интеллектом, Кристобаль Валенсуэла, говорит, что проблемы с данными и инженерные вопросы не позволяют современным моделям точно отражать поведение жителей мира (например, людей и животных). «Модели должны будут создавать согласованные карты окружающей среды, — сказал он, — а также способность ориентироваться и взаимодействовать в этой среде».

OpenAI Сора
Видео, созданное Сорой. Кредиты изображений:ОпенАИ

Однако, по мнению Машрабова, если все основные препятствия будут преодолены, мировые модели смогут «более надежно» связать ИИ с реальным миром, что приведет к прорывам не только в создании виртуального мира, но и в робототехнике и принятии решений с помощью ИИ.

Они также могут создавать более способных роботов.

Роботы сегодня ограничены в возможностях, потому что они не осознают окружающий мир (или собственное тело). Мировые модели могут дать им такое понимание, сказал Машрабов, по крайней мере, до некоторой степени.

«Благодаря продвинутой модели мира ИИ может развить личное понимание любого сценария, в котором он находится, — сказал он, — и начать обдумывать возможные решения».

У TechCrunch есть информационный бюллетень, посвященный искусственному интеллекту! Зарегистрируйтесь здесь чтобы получать его на свой почтовый ящик каждую среду.

Previous post Женский регби Премьер-лиги: Хоуп Роджерс забивает четыре попытки, а Эксетер Чифс остается лидером, победив Трейлфайндерс
Next post Meta просит California AG заблокировать переход OpenAI на коммерческую деятельность