Два старшекурсника создали речевую модель AI для конкурирующего Notebooklm

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов22.04.2025

Пара старшекурсников, ни с обширной экспертизой AI, скажем, что они создали открыто доступную модель ИИ, которая может генерировать клипы в стиле подкаста, аналогичные Notebooklm Google.

Рынок синтетических речевых инструментов огромный и растущий. ElevenLabs — один из крупнейших игроков, но нет недостатка в претендентах (см. Playai, Sesame и так далее). Инвесторы считают, что эти инструменты имеют огромный потенциал. По данным Pitchbook, стартапы, разработанные Voice AI Tech, собрали более 398 млн. Долл. США в виде финансирования ВК в прошлом году.

Тоби Ким, один из корейских соучредителей Nari Labs, группа, стоящая за вновь выпущенной моделью, сказал, что он и его соучредитель начали изучать речь ИИ три месяца назад. Вдохновленные Notebooklm, они хотели создать модель, которая предлагала больше контроля над генерируемыми голосами и «свободой в сценарии».

Ким говорит, что они использовали программу Google TPU Research Cloud Program, которая предоставляет исследователям бесплатный доступ к чипам TPU AI компании, чтобы обучить модель Нари, DIA. При вестя 1,6 миллиарда параметров, DIA может генерировать диалог из сценария, позволяя пользователям настраивать тона динамиков и вставлять дисфальсификацию, кашель, смех и другие невербальные сигналы.

Параметры — это внутренние переменные, которые модели используют для прогнозирования. Как правило, модели с большим количеством параметров работают лучше.

Доступный от платформы AI Dev, обнимающего лицо и GitHub, DIA может работать на большинстве современных ПК с не менее 10 ГБ VRAM. Он генерирует случайный голос, если не будет предложено с описанием предполагаемого стиля, но он также может клонировать голос человека.

В кратком тестировании DIA TechCrunch с помощью веб-демонстрации Нари, DIA работал довольно хорошо, несмотря на неосвободив двухсторонние чаты по любому предмету. Качество голосов кажется конкурентоспособным с другими инструментами, и функция голосового клонирования является одной из самых простых, что этот репортер пытался.

Вот образец:

Однако, как и многие голосовые генераторы, DIA не предлагает никаких мер защиты от гарантий. Было бы тривиально легко создать дезинформацию или запись мошенничества. На страницах проектов DIA Нари препятствует злоупотреблению моделью выдавать себя за себя, обмануть или иным образом участвовать в незаконных кампаниях, но группа говорит, что она «не ответственна» за злоупотребление.

Нари также не раскрыл, какие данные он соскребает для обучения DIA. Возможно, DIA был разработан с использованием защищенного авторским правом контента — комментатор на Hacker News отмечает, что один образец звучит как хозяева подкаста NPR «Planet Money». Обучающие модели по защищенному авторским праву являются широко распространенной, но юридически сомнительной практикой. Некоторые компании по искусственному искусству утверждают, что справедливое использование защищает их от ответственности, в то время как владельцы прав утверждают, что справедливое использование не распространяется на обучение.

В любом случае, Ким говорит, что план Нари состоит в том, чтобы создать синтетическую голосовую платформу с «социальным аспектом» в верхней части DIA и более крупных будущих моделей. Нари также намерен выпустить технический отчет для DIA и расширить поддержку модели на языки за пределами английского языка.

Дональд Трамп, чтобы уволить советника по национальной безопасности Майк Вальц

HHS Трампа побуждает терапию трансгендерной молодежи, отходя от более широкого гендерного медицинского обслуживания

Крусибное будущее чемпионата мира — Барри Хирн и Совет Шеффилда в позитивных переговорах

Советник Трампа по национальной безопасности Майк Вальц и его заместитель оставляют посты в Белом доме

Витор Перейра: Менеджер Волков о том, почему он идет в паб после матчей

Прочитайте самые сочные кусочки от решения суда против Apple по сравнению с практикой App Store Practices

Moët Hennessy, чтобы сократить 10% рабочей силы в качестве роскошного замедления.

2000 Гинеи: поле Золотого, правящий суд среди бегунов Newmarket Classic

Консоли, контроллеры и игры Xbox становятся дороже

KKR сообщает о первой ежеквартальной убытках с 2022 года

Какова стоимость, если Man Ucld упустит квалификацию Лиги чемпионов?

Соглашение Теслы, как сообщается, искал преемника, в то время как мускус шел вокруг Вашингтона