Amazon раскрывает новую модель AI Voice, Nova Sonic

Во вторник Amazon дебютировал с новой генеративной моделью искусственного интеллекта, Новой Соник, способной обрабатывать голос и генерировать естественную звучащую речь. Amazon утверждает, что производительность Sonic конкурентоспособна с моделями Frontier Voice от Openai и Google на контрольных показателях, измеряющих скорость, распознавание речи и разговорное качество.

Nova Sonic — это ответ Amazon на более новые модели голоса искусственного интеллекта, такие как модель, питающая голосовой режим CHATGPT, с которыми сталкивается более естественно, чем более жесткие модели из первых дней Amazon Alexa. Недавние технологические прорывы сделали устаревшие модели и цифровые помощники, которые они лежат в основе, такие как Alexa и Apple Siri, кажутся невероятно насыщенными по сравнению с сравнением.

Nova Sonic доступна через Bedrock, платформу разработчиков Amazon для создания приложений для искусственного интеллекта предприятия, посредством нового двунаправленного потокового API. В пресс-релизе Amazon под названием Nova Sonic «наиболее экономически эффективной» на рынке на рынке и примерно на 80% дешевле, чем GPT-4O Openai.

По словам Amazon SVP и главный ученый Agi Rohit Prasad, компоненты Nova Sonic уже питают Alexa+, модернизированный цифровой голосовой помощник Alexa+Alexa+Amazon.

В интервью Прасад сказал TechCrunch, что Nova Sonic опирается на опыт Amazon в «больших системах оркестровки», технических лесах, которые составляют Alexa. По словам Прасада, по сравнению с конкурентными моделями AI Voice, Nova Sonic превосходит запросы пользователей в разные API. Эта возможность помогает Nova Sonic «знать», когда ей необходимо извлечь информацию в реальном времени из Интернета, анализировать запатентованный источник данных или принять меры во внешнем приложении-и использовать соответствующий инструмент для этого.

По словам Амазонки, во время двухстороннего диалога Нова Соник ждет «в подходящее время», принимая во внимание паузы и перерывы спикера. Он также генерирует текстовую стенограмму для речи пользователя, которую разработчики могут использовать для различных приложений.

По словам Прасада, Nova Sonic менее подвержен ошибкам распознавания речи, чем другие модели голоса искусственного интеллекта, а это означает, что модель относительно хороша в понимании намерения пользователя, даже если они бормотают, неправильно или находятся в шумной обстановке. Амазонка говорит, что на уровне измерения распознавания речи между языками и диалектами, многоязычным Librispeech, говорит, что Nova Sonic достигла частоты ошибок слова (WER) всего 4,2%, когда усредняется по английскому, французскому, итальянскому, немецкому и испанскому языку. Это означает, что примерно четыре из каждых 100 слов из модели отличались от человеческой транскрипции на этих языках.

На другом эталонном эталоне, измеряющем громкие взаимодействия с несколькими участниками, дополненное многочасочное взаимодействие, Amazon говорит, что Nova Sonic была на 46,7% точнее с точки зрения модели GPT-4-Transcribe от GPT-4. По данным Amazon, Nova Sonic также имеет ведущую в отрасли скорость, со средней воспринимаемой задержкой 1,09 секунды. Это делает его быстрее, чем модель GPT-4O, питающая API в режиме реального времени Openai, которая отвечает за 1,18 секунды, согласно сравнению с помощью искусственного анализа.

Прасад говорит, что Nova Sonic является частью более широкой стратегии Amazon по созданию AGI (искусственный общий интеллект), которую компания определяет как «системы ИИ, которые могут делать все, что человек может сделать на компьютере». Двигаясь вперед, Прасад говорит, что Amazon планирует выпустить больше моделей искусственного интеллекта, которые могут понимать различные методы, включая изображение, видео и голос, а также «другие сенсорные данные, которые актуальны, если вы принесете вещи в физический мир».

Дивизион Amazon AGI, которое Прасад контролирует, в наши дни играет большую роль в стратегии продукта компании. Буквально на прошлой неделе Amazon запустил предварительный просмотр ACT NOVA ACT, модели ИИ, использующей браузер, которая, по-видимому, питает элементы функции Alexa+ и Amazon Buy For Me. Начиная с Nova Sonic, Prasad говорит, что компания хочет предложить больше своих внутренних моделей искусственного интеллекта для разработчиков.

Previous post США потянут присутствие из ключевого концентратора Arms Aid Airm Aid в Польше — Politico
Next post ЕС стремится помощи от Пекина, чтобы остановить углубление торговой войны Трампа — Politico