Два старшекурсника создали речевую модель AI для конкурирующего Notebooklm

Пара старшекурсников, ни с обширной экспертизой AI, скажем, что они создали открыто доступную модель ИИ, которая может генерировать клипы в стиле подкаста, аналогичные Notebooklm Google.

Рынок синтетических речевых инструментов огромный и растущий. ElevenLabs — один из крупнейших игроков, но нет недостатка в претендентах (см. Playai, Sesame и так далее). Инвесторы считают, что эти инструменты имеют огромный потенциал. По данным Pitchbook, стартапы, разработанные Voice AI Tech, собрали более 398 млн. Долл. США в виде финансирования ВК в прошлом году.

Тоби Ким, один из корейских соучредителей Nari Labs, группа, стоящая за вновь выпущенной моделью, сказал, что он и его соучредитель начали изучать речь ИИ три месяца назад. Вдохновленные Notebooklm, они хотели создать модель, которая предлагала больше контроля над генерируемыми голосами и «свободой в сценарии».

Ким говорит, что они использовали программу Google TPU Research Cloud Program, которая предоставляет исследователям бесплатный доступ к чипам TPU AI компании, чтобы обучить модель Нари, DIA. При вестя 1,6 миллиарда параметров, DIA может генерировать диалог из сценария, позволяя пользователям настраивать тона динамиков и вставлять дисфальсификацию, кашель, смех и другие невербальные сигналы.

Параметры — это внутренние переменные, которые модели используют для прогнозирования. Как правило, модели с большим количеством параметров работают лучше.

Доступный от платформы AI Dev, обнимающего лицо и GitHub, DIA может работать на большинстве современных ПК с не менее 10 ГБ VRAM. Он генерирует случайный голос, если не будет предложено с описанием предполагаемого стиля, но он также может клонировать голос человека.

В кратком тестировании DIA TechCrunch с помощью веб-демонстрации Нари, DIA работал довольно хорошо, несмотря на неосвободив двухсторонние чаты по любому предмету. Качество голосов кажется конкурентоспособным с другими инструментами, и функция голосового клонирования является одной из самых простых, что этот репортер пытался.

Вот образец:

Однако, как и многие голосовые генераторы, DIA не предлагает никаких мер защиты от гарантий. Было бы тривиально легко создать дезинформацию или запись мошенничества. На страницах проектов DIA Нари препятствует злоупотреблению моделью выдавать себя за себя, обмануть или иным образом участвовать в незаконных кампаниях, но группа говорит, что она «не ответственна» за злоупотребление.

Нари также не раскрыл, какие данные он соскребает для обучения DIA. Возможно, DIA был разработан с использованием защищенного авторским правом контента — комментатор на Hacker News отмечает, что один образец звучит как хозяева подкаста NPR «Planet Money». Обучающие модели по защищенному авторским праву являются широко распространенной, но юридически сомнительной практикой. Некоторые компании по искусственному искусству утверждают, что справедливое использование защищает их от ответственности, в то время как владельцы прав утверждают, что справедливое использование не распространяется на обучение.

В любом случае, Ким говорит, что план Нари состоит в том, чтобы создать синтетическую голосовую платформу с «социальным аспектом» в верхней части DIA и более крупных будущих моделей. Нари также намерен выпустить технический отчет для DIA и расширить поддержку модели на языки за пределами английского языка.

Previous post Марк Канхэм: FAI объявляет о выходе главного футбольного офицера
Next post 37 Взносы в Премьер -лиге с прошлого сезона — как Волки принесли лучшее из Матеуса Кунхи