Nvidia представила на выставке CES 2025 прототип искусственного аватара, который живет на рабочем столе вашего ПК. AI-помощник R2X выглядит как персонаж видеоигры и может помочь вам перемещаться по приложениям на вашем компьютере.
Аватар R2X визуализируется и анимируется с использованием моделей искусственного интеллекта Nvidia, и пользователи могут запускать аватар на популярных LLM по своему выбору, таких как GPT-4o от OpenAI или Grok от xAI. Пользователи могут общаться с R2X посредством текста и голоса, загружать в него файлы для обработки или даже разрешить помощнику искусственного интеллекта просматривать то, что происходит в реальном времени на вашем экране или камере.
В последнее время технологические компании создают множество аватаров с искусственным интеллектом не только для видеоигр, но и для корпоративных и потребительских клиентов. Ранние демо-версии странны, но некоторые считают, что эти аватары — многообещающий пользовательский интерфейс для помощников ИИ. С помощью R2X Nvidia пытается объединить возможности генеративных видеоигр с передовыми помощниками искусственного интеллекта, чтобы создать помощника искусственного интеллекта, который выглядит и ощущается как человек.
Подобно функции возврата от Microsoft (которая была отложена из-за проблем с конфиденциальностью), R2X может постоянно делать снимки экрана вашего экрана и запускать их через модель искусственного интеллекта для обработки, хотя эта функция по умолчанию отключена. Когда он включен, он может предлагать отзывы о приложениях, работающих на вашем компьютере, и, например, помогать вам решать сложную задачу по написанию кода.
R2X все еще является прототипом, и даже Nvidia признает, что еще есть некоторые ошибки, над которыми нужно работать. В демоверсиях с TechCrunch аватар Nvidia создавал ощущение жуткой долины — его лицо иногда застревало в странных положениях, а тон временами казался немного агрессивным. И вообще, я думаю, это странно, когда маленький гуманоидный аватар смотрит на меня, пока я делаю свою работу.
Обычно он предлагал полезные инструкции и точно просматривал то, что было на экране. Но в какой-то момент аватар дал нам неверные инструкции, а позже аватар вообще перестал видеть экран. Это может быть проблемой базовой модели искусственного интеллекта (в данном случае GPT-4o), но пример показывает ограничения этой ранней технологии.
В одной из демонстраций руководитель продукта Nvidia показал, как R2X может просматривать приложения на экране и помогать пользователям с ними. В частности, R2X помог нам использовать функцию генеративной заливки Adobe Photoshop. На фотографии, которую мы выбрали, изображен генеральный директор Nvidia Дженсен Хуанг, стоящий в азиатском ресторане с двумя работниками ресторана. Аватар Nvidia галлюцинировал и дал неверные инструкции о том, где найти функцию генеративной заливки. Но после замены модели ИИ, которую мы использовали, на Грока от xAI, аватар восстановил возможности просмотра экрана.
В другой демонстрации R2X смог получить PDG с рабочего стола, а затем ответить на вопросы о нем. Этот процесс основан на функции дополненной генерации локального поиска, которая дает этим аватарам ИИ возможность извлекать информацию из документа и обрабатывать ее с использованием лежащего в ее основе LLM.
Nvidia использует некоторые модели искусственного интеллекта из своего подразделения видеоигр, чтобы улучшить внешний вид этих аватаров. Для создания аватаров Nvidia использует свой алгоритм нейронных лиц RTX. Чтобы автоматизировать движения лица, губ и языка, Nvidia использует новую модель под названием Audio2Face™-3D. Эта модель, казалось, в некоторых моментах застревала, удерживая лицо аватара в неловком положении.
Компания также заявляет, что эти аватары R2X смогут присоединяться к собраниям Microsoft Teams, выступая в качестве личного помощника.
Руководитель продукта Nvidia говорит, что компания также работает над тем, чтобы наделить эти ИИ-аватары агентскими способностями, чтобы однажды R2X мог выполнять действия на вашем рабочем столе. Эти возможности, похоже, еще далеки от реализации, и они, вероятно, потребуют партнерства с производителями программного обеспечения, такими как Microsoft и Adobe, которые сами пытаются разработать аналогичные агентные системы.
Не совсем понятно, как Nvidia генерирует голоса в этих продуктах. Голос R2X при использовании GPT-4o звучит уникально по сравнению с любым из предустановленных голосов ChatGPT, тогда как у чат-бота Grok от xAI пока вообще нет голосового режима.
Компания планирует открыть исходный код этих аватаров в первой половине 2025 года. Nvidia рассматривает это как новый пользовательский интерфейс для разработчиков, позволяющий пользователям подключать свои любимые программные продукты для искусственного интеллекта или даже запускать эти аватары локально.