Создатель голоса ChatGPT хочет создать технологию на основе «Ее» без антиутопии

Алексис Конно много думает о фильме «Она». Последние несколько лет он одержим идеей превратить вымышленную голосовую технологию Саманты из фильма в реальность.

Конно даже использует изображение персонажа Хоакина Феникса в фильме в качестве баннера в Твиттере.

X-баннер Конно/Твиттер (Изображение предоставлено: X)

Что касается расширенного голосового режима ChatGPT, проекта, который Конно начал в OpenAI после аналогичной работы в Meta, он вроде как это сделал. Система искусственного интеллекта изначально обрабатывает речь и отвечает так же, как человек.

Теперь у него есть новый стартап WaveForms AI, который пытается создать что-то лучшее.

Конно тратит немало времени на размышления о том, как избежать антиутопии, показанной в этом фильме, рассказал он TechCrunch в интервью. «Она» — научно-фантастический фильм о мире, где люди развивают близкие отношения с системами искусственного интеллекта, а не с другими людьми.

«Этот фильм — антиутопия, верно? Мы не хотим такого будущего», — сказал Конно. «Мы хотим принести эту технологию – которая сейчас существует и будет существовать – и мы хотим принести ее навсегда. Мы хотим сделать прямо противоположное тому, что делает компания в этом фильме».

Создание технологии без сопутствующей ей антиутопии кажется противоречием. Но Конно в любом случае намерен его создать, и он убежден, что его новый стартап в области искусственного интеллекта поможет людям «почувствовать AGI» своими ушами.

В понедельник Конно запустил WaveForms AI, новую компанию LLM в сфере аудио, обучающую свои собственные базовые модели. В 2025 году компания намерена выпустить аудиопродукты с искусственным интеллектом, которые будут конкурировать с предложениями OpenAI и Google. Стартап привлек 40 миллионов долларов начального финансирования, как было объявлено в понедельник, под руководством Андриссена Горовица.

Конно говорит, что Марк Андриссен, который ранее писал, что ИИ должен быть частью каждого аспекта человеческой жизни, проявил личный интерес к его начинаниям.

Стоит отметить, что одержимость Конно фильмом «Она», возможно, в какой-то момент привела OpenAI к неприятностям. Ранее в этом году Скарлетт Йоханссон направила юридическую угрозу стартапу Сэма Альтмана, в конечном итоге вынудив OpenAI удалить один из голосов ChatGPT, который сильно напоминал ее персонаж в фильме. OpenAI отрицает, что когда-либо пыталась воспроизвести ее голос.

Но невозможно отрицать, насколько сильно этот фильм повлиял на Конно. «Она» была явно научной фантастикой, когда была выпущена в 2013 году — в то время Siri от Apple была совершенно новой и очень ограниченной. Но сегодня кажется, что эта технология пугающе доступна.

Платформы для общения с искусственным интеллектом, такие как Character.AI, еженедельно охватывают миллионы пользователей, которые просто хотят поговорить с их чат-ботами. Этот сектор становится популярным вариантом использования генеративного искусственного интеллекта, несмотря на порой трагические и тревожные результаты. Вы можете себе представить, как кто-то, целый день печатающий с помощью чат-бота, тоже хотел бы иметь возможность поговорить с ним, особенно с использованием такой убедительной технологии, как расширенный голосовой режим ChatGPT.

Генеральный директор WaveForms AI с настороженностью относится к сфере ИИ-компаний, и это не является ядром его новой компании. Хотя он считает, что люди будут использовать продукты WaveForms по-новому – например, разговаривать с искусственным интеллектом в течение 20 минут в машине, чтобы о чем-то узнать, – Конно говорит, что хочет, чтобы компания была более «горизонтальной».

«(WaveForms AI) может быть тем учителем, который вдохновляет, вы знаете, может быть, тем учителем, которого у вас не было бы в вашей жизни, по крайней мере, в вашей физической жизни», — сказал генеральный директор.

Он считает, что в будущем общение с генеративным искусственным интеллектом станет более распространенным способом взаимодействия со всеми видами технологий. Это может включать в себя разговор с автомобилем и компьютером. Целью WaveForms является создание «эмоционально интеллектуального» искусственного интеллекта, который облегчит все это.

«Я не верю в будущее, когда взаимодействие человека с искусственным интеллектом заменит взаимодействие человека с человеком», — сказал Конно. «Во всяком случае, это будет дополнять друг друга».

Он говорит, что ИИ может учиться на ошибках социальных сетей. Например, он считает, что ИИ не должен оптимизировать «время, проведенное на платформе» — общий показатель успеха социальных приложений, которые могут способствовать появлению нездоровых привычек, таких как думскроллинг. В более широком смысле он хочет убедиться, что ИИ WaveForms соответствует интересам людей, называя это «самой важной работой, которую вы можете сделать».

Конно говорит, что название OpenAI для его проекта «Расширенный голосовой режим» на самом деле не отражает того, насколько эта технология отличается от обычного голосового режима ChatGPT.

Старый голосовой режим на самом деле просто переводил ваш голос в текст, пропускал его через GPT-4, а затем преобразовывал этот текст обратно в речь. Это было несколько хаотичное решение. Однако, по словам Конно, в расширенном голосовом режиме GPT-4o фактически разбивает звук вашего голоса на токены (очевидно, каждая секунда звука равна примерно трем токенам) и пропускает эти токены непосредственно через модель преобразователя, специфичную для звука. . Именно это, объяснил он, позволяет расширенному голосовому режиму иметь такую ​​низкую задержку.

Когда речь идет об аудиомоделях ИИ, часто говорят о том, что они якобы могут «понимать эмоции». Подобно тому, как текстовые LLM основаны на шаблонах, найденных в куче текстовых документов, аудио LLM делают то же самое с аудиоклипами, в которых разговаривают люди. Люди называют эти клипы «грустными» или «взволнованными», поэтому модели ИИ распознают похожие голосовые шаблоны, когда слышат, как вы это говорите, и даже отвечают собственными эмоциональными интонациями. Таким образом, они не столько «понимают эмоции», сколько систематически распознают звуковые качества, которые люди связывают с этими эмоциями.

Делаем ИИ более привлекательным, а не умным

Конно делает ставку на то, что сегодня генеративному ИИ не нужно становиться значительно умнее, чем GPT-4o, чтобы создавать более качественные продукты. Вместо улучшения базового интеллекта этих моделей, как OpenAI с o1, WaveForms просто пытается сделать ИИ более удобным для общения.

«Появится рынок людей (использующих генеративный искусственный интеллект), которые просто выберут то взаимодействие, которое им наиболее приятно», — сказал Конно.

Вот почему стартап уверен, что сможет разработать свои собственные фундаментальные модели — в идеале, меньшие по размеру, которые будут дешевле и быстрее в эксплуатации. Это неплохая ставка, учитывая недавние свидетельства того, что старые законы масштабирования ИИ замедляются.

Конно говорит, что его бывший коллега по OpenAI Илья Суцкевер часто говорил с ним о попытках «почувствовать ОИИ» — по сути, об использовании интуиции, чтобы оценить, достигли ли мы сверхразумного ИИ. Генеральный директор WaveForms убежден, что достижение AGI будет скорее ощущением, а не достижением какого-то эталона, и аудио LLM станет ключом к этому ощущению.

«Я думаю, вы сможете гораздо больше почувствовать ОИИ, когда сможете поговорить с ним, когда вы сможете услышать ОИИ, когда вы действительно сможете поговорить с самим трансформатором», — сказал Конно, повторяя комментарии, которые он сделал Суцкеверу ужин.

Но поскольку стартапы делают ИИ более удобным для общения, они, очевидно, также несут ответственность за то, чтобы выяснить, как сделать так, чтобы люди не впадали в зависимость. Однако генеральный партнер Andreessen Horowitz Мартин Касадо, который помогал руководить инвестициями в WaveForms, говорит, что не обязательно плохо, если люди чаще общаются с ИИ.

«Я могу поговорить со случайным человеком в Интернете, и этот человек может запугать меня, этот человек может воспользоваться мной… Я могу поговорить с видеоигрой, которая может быть сколь угодно жестокой, или я могу поговорить с ИИ», сказал Касадо в интервью TechCrunch. «Я думаю, что это важный вопрос исследования. Я не удивлюсь, если окажется, что (разговор с ИИ) на самом деле предпочтительнее».

Некоторые компании могут рассматривать развитие любовных отношений с вашим ИИ как показатель успеха. Но с общественной точки зрения это также можно рассматривать как признак полного провала, как это пытался изобразить фильм «Она». Это тот канат, по которому теперь придется идти WaveForms.

Previous post Полиция США задержала «лицо, заинтересованное» в убийстве руководителя UnitedHealth
Next post Готовитесь выставить свой дом на продажу? Вам нужно знать о «отскоке в День подарков» | Денежные новости