На конференции re:Invent во вторник Amazon Web Services (AWS), подразделение облачных вычислений Amazon, анонсировало новое семейство мультимодальных генеративных моделей искусственного интеллекта, которое оно назвало Nova.
Всего существует четыре модели генерации текста: Micro, Lite, Pro и Premier. Micro, Lite и Pro доступны во вторник для клиентов AWS, а Premier появится в начале 2025 года, заявил на сцене генеральный директор Amazon Энди Джасси.
В дополнение к ним есть модель генерации изображений Nova Canvas и модель генерации видео Nova Reel. Оба также были запущены на AWS сегодня утром.
«Мы продолжали работать над нашими собственными передовыми моделями, — сказал Ясси, — и эти передовые модели добились огромного прогресса за последние четыре-пять месяцев. И мы решили, что если бы мы находили в них ценность, вы, вероятно, нашли бы в них ценность».
Микро, Лайт, Про и Премьер
Текстовые модели Nova, оптимизированные для 15 языков (но в первую очередь английского), имеют самые разные размеры и возможности.
Micro может только принимать и выводить текст, но обеспечивает самую низкую задержку — обрабатывая текст и генерируя ответы быстрее всего.
Lite может достаточно быстро обрабатывать изображения, видео и текстовые вводы. Pro предлагает сбалансированное сочетание точности, скорости и стоимости для широкого спектра задач. А Premier — самый функциональный, предназначенный для сложных рабочих нагрузок.
Pro и Premier, как и Lite, могут анализировать текст, изображения и видео. Все три хорошо подходят для таких задач, как обработка документов и обобщение диаграмм, встреч и диаграмм. Однако AWS позиционирует Premier как скорее «учительскую» модель для создания настраиваемых пользовательских моделей, а не как модель, которую можно использовать самостоятельно.
Micro имеет контекстное окно на 128 000 токенов, что означает, что он может обрабатывать до 100 000 слов. Lite и Pro имеют контекстные окна на 300 000 токенов, что составляет около 225 000 слов, 15 000 строк компьютерного кода или 30 минут видеозаписи.
По данным AWS, в начале 2025 года контекстные окна некоторых моделей Nova будут расширены и будут поддерживать более 2 миллионов токенов.
Ясси утверждает, что модели Nova являются одними из самых быстрых в своем классе и одними из самых дешевых в эксплуатации. Они доступны на AWS Bedrock, платформе разработки искусственного интеллекта Amazon, где их можно точно настроить для текста, изображений и видео, а также оптимизировать для повышения скорости и эффективности.
«Мы оптимизировали эти модели для работы с проприетарными системами и API, так что с помощью этих моделей вам будет гораздо проще выполнять несколько согласованных автоматических шагов — поведения агентов», — добавил Ясси. «Поэтому я думаю, что это очень убедительно».
Холст и катушка
Canvas и Reel — это самая сильная попытка AWS в области генеративных медиа.
Canvas позволяет пользователям создавать и редактировать изображения с помощью подсказок (например, удалять фон) и предоставляет элементы управления цветовыми схемами и макетами созданных изображений. Reel, более амбициозная из двух моделей, создает видеоролики продолжительностью до шести секунд на основе подсказок или, опционально, эталонных изображений. Используя Reel, пользователи могут регулировать движение камеры для создания видео с панорамированием, вращением на 360 градусов и масштабированием.
В настоящее время Reel ограничен шестисекундными видеороликами (на создание которых уходит около трех минут), но, по данным AWS, «скоро появится» версия, способная создавать двухминутные видеоролики.
Вот образец:
И еще:
А вот изображения с Canvas:
Ясси подчеркнул, что и Canvas, и Reel имеют «встроенные» элементы управления для ответственного использования, включая водяные знаки и модерацию контента. «(Мы пытаемся) ограничить создание вредного контента», — сказал он.
AWS подробно рассказала о мерах безопасности в своем блоге, заявив, что Nova «расширяет (свои) меры безопасности для борьбы с распространением дезинформации, материалов о сексуальном насилии над детьми, а также химических, биологических, радиологических или ядерных рисков». Однако неясно, что это означает на практике и какие формы принимают эти меры.
AWS также продолжает оставаться неясным относительно того, какие именно данные она использует для обучения всех своих генеративных моделей. Ранее компания сообщила TechCrunch только, что это комбинация собственных и лицензионных данных.
Лишь немногие поставщики охотно раскрывают такую информацию. Они рассматривают данные тренировок как конкурентное преимущество и поэтому держат их и информацию, связанную с ними, в строжайшем секрете. Подробности данных обучения также являются потенциальным источником судебных исков, связанных с интеллектуальной собственностью, что является еще одним препятствием для раскрытия информации.
Вместо прозрачности AWS предлагает политику возмещения убытков, которая распространяется на клиентов в случае, если одна из ее моделей извергает (т. е. выдает зеркальную копию) кадр, потенциально защищенный авторским правом.
Итак, что же будет дальше с Новой? Ясси говорит, что AWS работает над моделью преобразования речи в речь — моделью, которая будет принимать речь и выводить ее преобразованную версию — для первого квартала 2025 года, а также моделью «любой к любому» примерно к середине 2025 года. .
По словам Amazon, модель преобразования речи в речь также сможет интерпретировать вербальные и невербальные сигналы, такие как тон и ритм, и воспроизводить естественные, «человеческие» голоса. Что касается модели «любой к любому», теоретически она будет использоваться в различных приложениях — от переводчиков до редакторов контента и помощников искусственного интеллекта.
Это, конечно, при условии, что у него не будет никаких неудач.
«Вы сможете вводить текст, речь, изображения или видео и выводить текст, речь, изображения или видео», — сказал Ясси о модели «любой к любому». «Это будущее того, как будут создаваться и использоваться передовые модели».