
ИИ и крупные языковые модели (LLMS), которые имеют их, имеют кучу полезных приложений, но, несмотря на все их обещание, они не очень надежны.
Никто не знает, когда эта проблема будет решена, поэтому имеет смысл, что мы видим, как стартапы находят возможность помочь предприятиям убедиться, что приложения LLM-мощности, за которые они платят, за работу в соответствии с задумами.
Лондонский стартап Composo считает, что у него есть старта, пытаясь решить эту проблему благодаря своим пользовательским моделям, которые могут помочь предприятиям оценить точность и качество приложений, которые работают на LLMS.
Компания, аналогичная агенту, Freeplay, Humanloop и Langsmith, которая, как утверждает, предлагает более надежную альтернативу на основе LLM для тестирования человека, контрольных списков и существующих инструментов наблюдения. Но Composo утверждает, что это отличается, потому что он предлагает как вариант без кода, так и API. Это примечательно, потому что это расширяет объем своего потенциального рынка — вам не нужно быть разработчиком, чтобы использовать его, и эксперты и руководители домена могут оценивать приложения ИИ на предмет несоответствий, качества и точности.
На практике Composo объединяет модель вознаграждения, обученную на выводе, которые человек предпочел бы видеть из приложения ИИ с определенным набором критур, специфичных для этого приложения для создания системы, которая по существу оценивает выходы из приложения против этих критериев. Например, чат -бот с медицинской сортировкой может иметь свои клиентские настраиваемые руководящие принципы для проверки симптомов красного флага, и Composo может оценить, насколько последовательно это приложение.
Компания недавно запустила публичный API для Composo Align, модель для оценки приложений LLM по любым критериям.
Похоже, что стратегия работает несколько: у нее есть такие названия, как Accenture, Palantir и McKinsey в своей клиентской базе, и недавно она привлекла 2 миллиона долларов на предварительное финансирование. Небольшая сумма, поднятая здесь, не редкость для стартапа в сегодняшнем венчурном климате, но это примечательно, потому что это земля, в конце концов, финансирование для таких компаний в изобилии.
Но, по словам соучредителя и генерального директора Composo Sebastian Fox, относительно низкое число заключается в том, что подход стартапа не особенно капитал интенсивный.
«По крайней мере, в течение следующих трех лет мы не предвидим, что выращиваем сотни миллионов, потому что есть много людей, строящих модели фонда и делают это очень эффективно, и это не наш USP», — сказал Фокс, бывший консультант McKinsey. «Вместо этого, каждое утро, если я просыпаюсь и увижу новостную статью, которую Openai сделал огромным авансом в своих моделях, это хорошо для моего бизнеса».
Благодаря Fresh Cash, Composo планирует расширить свою инженерную команду (возглавляемая соучредителем и техническим директором Люком Маркхэмом, бывшим инженером по машинному обучению в GraphCore), приобретает больше клиентов и поддерживает свои усилия по исследованиям и разработкам. «Основное внимание в этом году — гораздо больше на масштабирование технологии, которые у нас сейчас есть в этих компаниях», — сказал Фокс.
Британский фонд British AI Pre-Seed Twin Path Ventures возглавлял Seed Round, который также увидел участие JVH Ventures и Ewor (последний поддержал стартап в рамках своей программы ускорителя). «Composo обращается к критическому узкому месту в принятии AI Enterprise», — заявил в своем заявлении представитель Twin Path.
По словам Фокса, это узкое место является большой проблемой для общего движения ИИ, особенно в сегменте предприятия. «Люди переживают ажиотаж и теперь думают:« Ну, на самом деле, действительно ли это что -то меняет в моем бизнесе в его нынешнем виде? Потому что это недостаточно надежно, и это не достаточно последовательно. И даже если это так, вы не можете доказать мне, сколько это стоит », — сказал он.
Это узкое место может сделать композицию более ценным для компаний, которые хотят реализовать ИИ, но могут понести репутационный риск от этого. Фокс говорит, что именно поэтому его компания решила быть агностическим, но все еще имеет резонанс в соответствии с требованиями, юридическими, здравоохранением и безопасности.
Что касается своего конкурентного рва, Фокс считает, что исследования и разработки, необходимые для того, чтобы добраться сюда, не тривиально. «Существует как архитектура модели, так и данные, которые мы использовали для ее обучения», — сказал он, объяснив, что Composo Align был обучен «большому набору данных экспертных оценок».
Все еще есть вопрос о том, что могли бы сделать технические гиганты, если бы они просто постучали на свои огромные военные сундуки, чтобы войти в эту проблему, но Composo считает, что у него есть преимущество первого двигателя. «Другая (вещь) — это данные, которые мы начисляем со временем», — сказал Фокс, ссылаясь на то, как Composo создал предпочтения оценки.
Поскольку он оценивает приложения по гибкому набору критериев, Composo также считает себя лучше подходящим для роста агентского ИИ, чем конкурентов, которые используют более ограниченный подход. «На мой взгляд, мы определенно не на стадии, где агенты работают хорошо, и это на самом деле то, что мы пытаемся помочь решить», — сказал Фокс.