Что общего между голосовыми агентами искусственного интеллекта и беспилотными автомобилями? Их производительность можно оценить одинаково, утверждает Брук Хопкинс, бывший технический руководитель Waymo. Coval, новый стартап Хопкинса, надеется именно на это.
«Когда я ушел из Waymo, я понял, что многие из тех проблем, с которыми мы столкнулись в Waymo, были именно теми, с которыми столкнулась остальная часть индустрии искусственного интеллекта», — сказал TechCrunch Хопкинс (на фото выше в центре). «Но все говорили, что это новая парадигма, что нам придется разрабатывать методы тестирования, исходя из первых принципов, и что, по сути, нам всем придется все воссоздавать. И я посмотрел на это и сказал: подождите, мы потратили последние 10 лет на беспилотное вождение, пытаясь понять, как это сделать».
В 2024 году она решила запустить Coval, платформу, которая создает симуляции для агентов голосового и чата с искусственным интеллектом, которые тестируют и оценивают, как они выполняют задачи, точно так же, как Хопкинс тестировал беспилотные автомобили в Waymo. Coval может одновременно запускать тысячи симуляций, например, попросить агента забронировать столик в ресторане или попросить агента ответить на вопрос службы поддержки клиентов, заданный косвенным образом.
Технология Coval оценивает агентов по общему набору показателей, но компании также могут настроить то, что они ищут, и использовать Coval для продолжения оценки регрессий. Пользователи также могут взять эти данные и информацию, которую они извлекают из них, и передать их своим конечным клиентам либо для демонстрации, либо в качестве инструмента мониторинга, чтобы показать своим клиентам, что агент работает так, как задумано.
«Одним из самых больших препятствий для внедрения агентов на предприятиях является их уверенность в том, что это не просто демонстрация с дымом и зеркалами», — сказал Хопкинс. «Выбор поставщиков — действительно сложная задача для этих руководителей, потому что очень сложно понять, о чем вы вообще спрашиваете, или как вообще доказать, что эти агенты делают то, что вы ожидаете. И это дает нашим компаниям возможность действительно показать и продемонстрировать это».
Хопкинс действительно сформулировала идею Coval во время партии Y Combinator Summer 2024, прежде чем публично представить продукт в октябре 2024 года. Она сказала, что спрос был высоким и стал взрывным за последние два месяца, когда клиенты спрашивали, как быстро они смогут получить своих агентов. оценено.
Стартап из Сан-Франциско сейчас объявляет о посевном раунде стоимостью 3,3 миллиона долларов под руководством MaC Venture Capital с участием Y Combinator и General Catalyst. Стартап будет использовать капитал для создания своей инженерной команды и работы над достижением соответствия продукта рынку. Хопкинс добавил, что в будущем компания также будет работать над тем, чтобы позволить своим пользователям оценивать другие типы ИИ-агентов, например, веб-агенты.
На сцену выходит Ковал, в то время как динамика и ажиотаж вокруг агентов ИИ, похоже, находятся на рекордно высоком уровне. Лидеры корпоративных технологий, такие как Марк Бениофф, хвалят (и продвигают) эту технологию, заявляя, что к следующему году Salesforce развернет более миллиарда своих агентов искусственного интеллекта. Ходят слухи, что OpenAI очень скоро выпустит свой вариант ИИ-агента.
В этой сфере также строится множество стартапов. Только в трех когортах Y Combinator в 2024 году было более 100 стартапов, создающих агентов искусственного интеллекта. Некоторые стартапы в области ИИ-агентов также получили значительные раунды венчурного финансирования. Одна из них, /dev/agents, привлекла начальный раунд в размере $55 млн при оценке в $500 млн в ноябре 2024 года, менее чем через год после своего основания.
Этот импульс означает, что, вероятно, появится больше компаний, которые также будут нуждаться в помощи в оценке своих агентов. Хопкинс сказал, что у Coval есть хорошие шансы выделиться из толпы, потому что, в отличие от неизбежных новичков, Coval имеет преимущество.
«Я думаю, что мы действительно выделяемся тем, что я работаю в этой сфере уже полдесятилетия и строю эти системы снова и снова», — сказала она. «Мы создали несколько итераций и видели, как они терпят неудачу и как они масштабируются, и мы встраиваем те же концепции в Coval и все эти знания».