
Качество голосов, сгенерированных AI, достаточно хорошо для таких вещей, как создание аудиокниг и подкастов, прочитание статей вслух, и базовая поддержка клиентов. Но многие компании не думают, что AI Voice Tech достаточно надежна, чтобы развернуть.
Вот почему два MIT Grads, Moin Nadeem и Nikhil Murthy (на фото выше), основанная Phonic, компания, предлагающая сквозной голосовой стек, чтобы повысить синтетическую надежность голоса при одновременном уменьшении задержки.
Надим и Мурти встретились в Массачусетском технологическом институте и знают друг друга более семи лет. Когда дуэт начал строить Phonic в прошлом году, они чувствовали, что не было много компаний, создающих полные голосовые технологические решения.
«Голосовой ИИ находится в месте, где вы связываете разные части, такие как автоматическое распознавание голоса (и) текст в речь, и (затем интегрировать) интеллект»,-сказал Мурти TechCrunch. «Однако, когда мы разговаривали с реальными клиентами, мы обнаружили, что не хватает (решений), которые (являются) надежны в масштабе».
Надим, который ранее работал в Mosaicml, приобретенной компании компании, приобретенной за 1,3 миллиарда долларов в 2023 году, сказали, что многие компании, которые строят в пространстве AI Voice (например, VAPI, округлые) создают рабочие потоки, чтобы собрать вместе отдельные модели ИИ.
Phonic использует другой подход: он тренирует свои модели с конечно-точным. Мурти сказал, что в этом есть несколько преимуществ.
«Владение моделями позволяет нам глубоко интегрировать некоторые (…) надежность в (сами модели)», — сказал он. «Если у вас нет этого слоя (…), вы просто привязываете разрозненные части, которые на самом деле не плавно подходят».
Мурти добавил, что метод Phonic также позволяет компании размещать и запускать модели экономически эффективно. Он утверждает, что фоновые поездка своих моделей по ряду записей, включая записи акцентированных и приглушенных речей, чтобы сделать модели очень надежными.
В настоящее время Phonic работает с ограниченным набором партнеров, включая компании в страховании и здравоохранении, но планирует в целом запустить свой продукт через несколько месяцев. Вскоре потенциальные клиенты смогут попробовать технологии Phonic на своем веб -сайте, сказал Надим.
Phonic привлек 4 миллиона долларов в раунде семян, возглавляемая Lux с участием соучредителя Repit Amjad Masad, обнимающего соучредителя Face Clem Delangue, соучредителя Intuition Касар Юнис и основатель Modal Labs Эрик Бернхардссон.
Грейс Исфорд, партнер Lux Capital, сказала, что внутренний способ обучения компании был привлекательным для инвестиционной фирмы.
«Мы думаем, что и Мойн, и Нихил — невероятные технологи», — сказала она. «Они основали (а) клуб машинного обучения в Массачусетском технологическом институте. И они уже некоторое время работали над тренировочными моделями. Плюс, их подход к сочетанию диффузии и проприетарных моделей в секторе Voice AI является новым».