DeepMind, исследовательская организация Google в области искусственного интеллекта, представила модель, которая может генерировать «бесконечное» разнообразие игровых трехмерных миров.
Модель под названием Genie 2 — преемница Genie от DeepMind, выпущенной ранее в этом году — может генерировать интерактивную сцену в реальном времени из одного изображения и текстового описания (например, «Милый робот-гуманоид в лесу»). В этом смысле он похож на модели, разрабатываемые компанией Фей-Фей Ли, World Labs и израильским предприятием Decart.
DeepMind утверждает, что Genie 2 может создавать «огромное разнообразие богатых трехмерных миров», включая миры, в которых пользователи могут выполнять такие действия, как прыжки и плавание, с помощью мыши или клавиатуры. Обученная на видео модель способна имитировать взаимодействие объектов, анимацию, освещение, физику, отражения и поведение «неигровых персонажей».
Многие симуляции Genie 2 выглядят как видеоигры ААА-класса — и причина вполне может заключаться в том, что данные обучения модели содержат прохождения популярных игр. Но DeepMind, как и многие лаборатории искусственного интеллекта, не раскрывает подробностей о своих методах получения данных, вероятно, по причинам конкуренции.
Возникает вопрос о последствиях ИС. DeepMind, будучи дочерней компанией Google, имеет беспрепятственный доступ к YouTube, и Google ранее подразумевал, что ее Условия предоставления услуг дают ей разрешение использовать видео YouTube для обучения моделей. Но действительно ли Genie 2 по сути создает несанкционированные копии игр, которые он «смотрел»? Полагаю, это будет решать суд.
Genie 2 может создавать согласованные миры с разными перспективами, например, от первого лица или изометрическую, в течение минуты, причем большинство из них длится 10-20 секунд.
«Genie 2 разумно реагирует на действия, нажимая клавиши на клавиатуре, определяя персонажа и правильно его перемещая», — пояснил DeepMind в своем блоге. «Например, наша модель (может) выяснить, что клавиши со стрелками должны перемещать робота, а не деревья или облака».
Большинство моделей, таких как Genie 2 — модели мира, если хотите — могут имитировать игры и трехмерную среду, но с проблемами артефактов, последовательности и галлюцинаций. Например, симулятор Minecraft от Decart Oasis имеет низкое разрешение и быстро «забывает» расположение уровней.
Однако Genie 2 может запоминать части моделируемой сцены, которые не видны, и точно отображать их, когда они снова становятся видимыми, утверждает DeepMind. (Модели World Labs тоже могут это делать.)
Теперь игры, созданные с помощью Genie 2, на самом деле были бы не такими уж веселыми. Стирание вашего прогресса каждую минуту может загнать любого в тупик. Поэтому DeepMind позиционирует модель как скорее исследовательский и творческий инструмент — инструмент для прототипирования «интерактивного опыта» и оценки агентов ИИ.
«Благодаря возможностям обобщения Genie 2, концепт-арт и рисунки можно превратить в полностью интерактивную среду», — пишет DeepMind. «А используя Genie 2 для быстрого создания богатой и разнообразной среды для агентов ИИ, наши исследователи могут создавать задачи оценки, которые агенты не видели во время обучения».
В DeepMind говорят, что, хотя Genie 2 находится на ранней стадии, лаборатория полагает, что она станет ключевым компонентом в разработке ИИ-агентов будущего.