Cartesia утверждает, что ее ИИ достаточно эффективен, чтобы работать практически где угодно

Разработка и использование ИИ становится все более дорогостоящим. Затраты на эксплуатацию искусственного интеллекта OpenAI в этом году могут достичь 7 миллиардов долларов, а генеральный директор Anthropic недавно предположил, что вскоре могут появиться модели стоимостью более 10 миллиардов долларов.

Поэтому ведется поиск способов сделать ИИ дешевле.

Некоторые исследователи сосредотачиваются на методах оптимизации существующих архитектур моделей, то есть структуры и компонентов, которые обеспечивают работу моделей. Другие разрабатывают новые архитектуры, которые, по их мнению, имеют лучшие шансы на доступное масштабирование.

Каран Гоэл принадлежит ко второму лагерю. В стартапе, который он помог основать Cartesia, Гоэл работает над тем, что он называет моделями пространства состояний (SSM), новой, высокоэффективной архитектурой модели, которая может обрабатывать большие объемы данных — текста, изображений и т. д. — одновременно. .

«Мы считаем, что для создания действительно полезных моделей ИИ необходимы новые архитектуры моделей», — сказал Гоэл TechCrunch. «Индустрия искусственного интеллекта — это конкурентное пространство, как коммерческое, так и с открытым исходным кодом, и построение лучшей модели имеет решающее значение для успеха».

Академические корни

До прихода в Cartesia Гоэл был доктором философии. кандидат в Стэнфордскую лабораторию искусственного интеллекта, где он работал, среди прочего, под руководством учёного-компьютерщика Кристофера Ре. Во время учебы в Стэнфорде Гоэл познакомился с Альбертом Гу, коллегой-доктором философии. кандидат в лаборатории, и они вдвоем набросали то, что впоследствии стало SSM.

В конце концов Гоэл устроился на работу в Snorkel AI, затем в Salesforce, а Гу стал доцентом в Карнеги-Меллоне. Но Гу и Гоэл продолжили изучение SSM, опубликовав несколько важнейших исследовательских работ по архитектуре.

В 2023 году Гу и Гоэл — вместе с двумя своими бывшими коллегами из Стэнфорда, Арджуном Десаи и Брэндоном Янгом — решили объединить усилия и запустить Cartesia для коммерциализации своих исследований.

Картезия
Команда основателей Cartesia. Слева направо: Брэндон Янг, Каран Гоэл, Альберт Гу и Арджун Десаи. Кредиты изображений:Картезия

Cartesia, в команду основателей которой также входит Ré, стоит за многими производными от Mamba, возможно, самого популярного сегодня SSM. Гу и профессор Принстона Три Дао запустили Mamba как открытый исследовательский проект в декабре прошлого года и продолжают совершенствовать его в последующих выпусках.

Cartesia опирается на Mamba и обучает собственных SSM. Как и все SSM, Cartesia дает ИИ что-то вроде рабочей памяти, делая модели более быстрыми — и потенциально более эффективными — в том, как они используют вычислительную мощность.

SSM против трансформаторов

Большинство сегодняшних приложений искусственного интеллекта, от ChatGPT до Sora, основаны на моделях с архитектурой-трансформером. Когда преобразователь обрабатывает данные, он добавляет записи в так называемое «скрытое состояние», чтобы «запомнить» то, что он обрабатывал. Например, если модель работает с книгой, значения скрытого состояния могут быть представлениями слов в книге.

Скрытое состояние — одна из причин, почему трансформаторы настолько мощны. Но это также является причиной их неэффективности. Чтобы «сказать» хотя бы одно слово о книге, которую только что проглотил трансформер, модели придется просканировать все ее скрытое состояние — задача, столь же требовательная в вычислительном отношении, как и перечитывание всей книги.

Напротив, SSM сжимают каждую предыдущую точку данных в своего рода сводку всего, что они видели раньше. По мере поступления новых потоков данных «состояние» модели обновляется, и SSM отбрасывает большую часть предыдущих данных.

Результат? SSM могут обрабатывать большие объемы данных, превосходя преобразователи в некоторых задачах генерации данных. Учитывая текущую стоимость вывода, это действительно привлекательное предложение.

Этические проблемы

Cartesia работает как общественная исследовательская лаборатория, разрабатывая SSM как в партнерстве со сторонними организациями, так и внутри компании. Sonic, последний проект компании, представляет собой SSM, который может клонировать голос человека или генерировать новый голос и регулировать тон и темп записи.

Гоэл утверждает, что Sonic, доступный через API и веб-панель, является самой быстрой моделью в своем классе. «Sonic — это демонстрация того, как SSM превосходно обрабатывают данные с длинным контекстом, например аудио, сохраняя при этом высочайший уровень производительности, когда дело касается стабильности и точности», — сказал он.

Картезия
Модель Sonic от Cartesia может в значительной степени настраивать речь, включая PROSODY. Кредиты изображений:Картезия

Хотя Cartesia удалось быстро поставлять продукцию, она столкнулась со многими из тех же этических ловушек, которые преследуют других производителей моделей ИИ.

Cartesia обучила по крайней мере некоторых своих SSM работе с The Pile — открытым набором данных, который, как известно, содержит нелицензированные книги, защищенные авторским правом. Многие компании, занимающиеся искусственным интеллектом, утверждают, что доктрина добросовестного использования защищает их от претензий о нарушении прав. Но это не помешало авторам подать в суд на Meta, Microsoft и других за якобы обучение моделей на The Pile.

А у Cartesia мало очевидных гарантий для своего клонера голоса на базе Соника. Несколько недель назад мне удалось создать клон голоса бывшего вице-президента Камалы Харрис, используя предвыборные речи (послушайте ниже). Инструмент Cartesia требует только, чтобы вы установили флажок, указывающий, что вы будете соблюдать Условия обслуживания стартапа.

Cartesia в этом отношении не обязательно хуже других инструментов клонирования голоса, представленных на рынке. Однако, учитывая сообщения о том, что голосовые клоны обходят банковские проверки безопасности, оптика не впечатляет.

Гоэл не сказал бы, что Cartesia больше не обучает моделей в The Pile. Но он все же решил проблемы модерации, сообщив TechCrunch, что Cartesia имеет системы «автоматической и ручной проверки» и «работает над системами голосовой проверки и водяных знаков».

«У нас есть специальные команды, которые тестируют такие аспекты, как технические характеристики, неправильное использование и предвзятость», — сказал Гоэл. «Мы также устанавливаем партнерские отношения с внешними аудиторами, чтобы обеспечить дополнительную независимую проверку безопасности и надежности наших моделей… Мы понимаем, что это непрерывный процесс, требующий постоянного совершенствования».

Начинающий бизнес

Гоэл говорит, что «сотни» клиентов платят за доступ к Sonic API, основной источник дохода Cartesia, включая приложение для автоматических звонков Goodcall. API Cartesia бесплатен для чтения вслух до 100 000 символов, при этом самый дорогой план стоит 299 долларов в месяц за 8 миллионов символов. (Cartesia также предлагает корпоративный уровень со специальной поддержкой и настраиваемыми ограничениями.)

По умолчанию Cartesia использует данные о клиентах для обучения своих моделей — такая политика не является чем-то неслыханным, но она вряд ли понравится пользователям, заботящимся о конфиденциальности. Goal отмечает, что пользователи могут отказаться, если захотят, и что Cartesia предлагает индивидуальные политики хранения для более крупных организаций.

Практика обработки данных Cartesia, похоже, не наносит вреда бизнесу, чего бы она ни стоила – по крайней мере, пока у Cartesia есть техническое преимущество. Генеральный директор Goodcall Боб Саммерс говорит, что он выбрал Sonic, потому что это была единственная модель генерации голоса с задержкой менее 90 миллисекунд.

«(Он) превзошел свою следующую лучшую альтернативу в четыре раза», — добавил Саммерс.

Доброго звонка
«Агентский» сервис искусственного интеллекта Goodcall опирается на Sonic API от Cartesia. Кредиты изображений:Доброго звонка

Сегодня Соника используют для игр, озвучивания и многого другого. Но Гоэл считает, что это лишь малая часть того, на что способны SSM.

Его видение — модели, которые работают на любом устройстве, понимают и генерируют любую модальность данных — текст, изображения, видео и т. д. — практически мгновенно. Сделав небольшой шаг в этом направлении, Cartesia этим летом запустила бета-версию Sonic On-Device, версии Sonic, оптимизированной для работы на телефонах и других мобильных устройствах для таких приложений, как перевод в реальном времени.

Наряду с Sonic On-Device компания Cartesia опубликовала Edge, программную библиотеку для оптимизации SSM для различных конфигураций оборудования, и Rene, компактную языковую модель.

«У нас есть большая и долгосрочная цель — стать универсальной базовой моделью для каждого устройства», — сказал Гоэл. «Наша долгосрочная дорожная карта включает разработку мультимодальных моделей искусственного интеллекта с целью создания интеллекта в реальном времени, который сможет анализировать огромные контексты».

Если это произойдет, Cartesia придется убедить потенциальных новых клиентов, что ее архитектура стоит того, чтобы ей пришлось пройти обучение. Ему также придется опережать других поставщиков, экспериментирующих с альтернативами трансформатору.

Стартапы Zephyra, Mistral и AI21 Labs обучили гибридные модели на базе Mamba. В другом месте компания Liquid AI, возглавляемая светилом робототехники Даниэлой Рус, разрабатывает собственную архитектуру.

Однако Гоэл утверждает, что Cartesia, в которой работают 26 сотрудников, имеет все шансы на успех — отчасти благодаря новым денежным вливаниям. В этом месяце компания завершила раунд финансирования на сумму 22 миллиона долларов, возглавляемый Index Ventures, в результате чего общая сумма привлеченных средств Cartesia составила 27 миллионов долларов.

Шардул Шах, партнер Index Ventures, считает, что технологии Cartesia однажды станут основой приложений для обслуживания клиентов, продаж и маркетинга, робототехники, безопасности и многого другого.

«Бросая вызов традиционной зависимости от архитектур на основе трансформаторов, Cartesia открыла новые способы создания экономичных и масштабируемых приложений искусственного интеллекта, работающих в режиме реального времени», — сказал он. «Рынок требует более быстрых и эффективных моделей, которые могут работать где угодно — от центров обработки данных до устройств. Технология Cartesia обладает уникальными возможностями для реализации этого обещания и стимулирования следующей волны инноваций в области искусственного интеллекта».

A* Capital, Conviction, General Catalyst, Lightspeed и SV Angel также приняли участие в последнем раунде финансирования Cartesia, расположенного в Сан-Франциско.

Previous post Meta Марка Цукерберга жертвует 1 миллион долларов в фонд инаугурации Дональда Трампа | Новости США
Next post Стерлинг колеблется вблизи самого высокого уровня по отношению к евро после голосования по Брекситу