Экспериментальное подразделение Google, Google Labs, тестирует новый генератор изображений под названием Whisk. Этот инструмент позволяет людям предлагать изображения вместо текста, позволяя им создавать ремиксы фотографий, изменяя объект, сцену и стиль.
Whisk использует модель генерации изображений Google Imagen 3 для объединения трех изображений: одного для объекта, другого для сцены и одного для стиля. Например, вы можете выбрать свою фотографию в качестве объекта, футуристический пейзаж в качестве сцены и стиль аниме для окончательного вида.
Модель автоматически генерирует подробную подпись к вашим изображениям, которая затем используется в качестве руководства для Imagen 3 при создании ремикса фотографии. Вы также можете ввести текстовые подсказки для дальнейшего определения желаемого результата, включая подробные описания, такие как «Субъект едет на летающем велосипеде».
Поскольку Whisk фокусируется только на нескольких ключевых характеристиках каждого изображения, компания объясняет, что результаты не всегда могут соответствовать вашим ожиданиям. Например, сгенерированный субъект может отличаться ростом, весом, прической или оттенком кожи. Google утверждает, что вы можете просматривать и редактировать основные подсказки в любое время.
В настоящее время эксперимент доступен только пользователям из США по адресу labs.google/whisk.