
В недавнем появлении в отношении возможного подкаста, проведенного соучастником LinkedIn Рейдом Хоффманом, генеральный директор Google DeepMind Демис Хассабис сказал, что Google планирует в конечном итоге объединить свои модели AI Gemini с моделями VEO, создавающих видео, чтобы улучшить понимание первого физического мира.
«Мы всегда строили Gemini, нашу модель фундамента, с самого начала, — сказал Хассабис, — и причина, по которой мы это сделали (потому что) у нас есть видение этой идеи универсального цифрового помощника, помощника, который… на самом деле помогает вам в реальном мире».
Индустрия ИИ постепенно движется к моделям «Omni», если хотите, — модели, которые могут понимать и синтезировать многие формы медиа. Новейшие модели Gemini от Google могут генерировать аудио, а также изображения и текст, в то время как модель по умолчанию Openai в CHATGPT может изначально создавать изображения, в том числе, конечно, искусство в стиле студии Ghibli. Amazon также объявил о планах запустить модель «Any-To-Any» в конце этого года.
Эти модели Omni требуют много учебных данных — изображений, видео, аудио, текста и так далее. Hassabis подразумевал, что видеоданные для VEO поступают в основном с YouTube, платформы, которой владеет Google.
«По сути, просмотр видео на YouTube — много видео на YouTube — (VEO 2) может выяснить, вы знаете, физику мира», — сказал Хассабис.
Ранее Google сообщил TechCrunch, что модели «могут быть обучены« некоторым »контенту YouTube в соответствии с его соглашением с создателями YouTube. По сообщениям, Google расширила свои условия обслуживания в прошлом году, чтобы позволить компании использовать больше данных для обучения моделей ИИ.