OpenAI запускает Оператора, ИИ-агента, который выполняет задачи автономно

Генеральный директор OpenAI Сэм Альтман начал этот год, заявив в своем блоге, что 2025 год будет большим для агентов ИИ, инструментов, которые могут автоматизировать задачи и выполнять действия от вашего имени.

Теперь мы видим первую настоящую попытку OpenAI.

OpenAI объявила в четверг, что запускает исследовательскую предварительную версию оператора, универсального ИИ-агента, который может взять под контроль веб-браузер и самостоятельно выполнять определенные действия. Оператор сначала станет доступен пользователям из США по плану подписки ChatGPT Pro за 200 долларов. OpenAI заявляет, что планирует в конечном итоге распространить эту функцию на большее количество пользователей на уровнях Plus, Team и Enterprise.

«(Оператор) скоро появится (в) других странах», — заявил генеральный директор OpenAI Сэм Альтман во время прямой трансляции в четверг. «Европа, к сожалению, займет некоторое время».

Эта первоначальная предварительная версия исследования доступна на сайтеoperator.chatgpt.com, но вскоре OpenAI заявляет, что хочет интегрировать Оператора во все свои клиенты ChatGPT.

Главный экран оператора.Кредиты изображений:ОпенАИ

По данным OpenAI, оператор обещает автоматизировать такие задачи, как бронирование жилья, столик в ресторане и онлайн-покупки. В интерфейсе оператора пользователи могут выбирать несколько категорий задач, включая покупки, доставку, питание и путешествия — каждая из которых обеспечивает различные виды автоматизации.

Когда пользователи ChatGPT активируют Оператора, появляется небольшое окно, показывающее специальный веб-браузер, который агент использует для выполнения задач, а также объяснения конкретных действий, которые выполняет агент. Пользователи по-прежнему могут контролировать свой экран во время работы Оператора, поскольку Оператор использует собственный специальный браузер.

OpenAI заявляет, что Оператор работает на основе модели агента, использующего компьютер, или CUA, которая сочетает в себе возможности зрения модели GPT-4o компании с способностями рассуждения более продвинутых моделей OpenAI. CUA обучен взаимодействовать с интерфейсом веб-сайтов, а это означает, что ему не нужно использовать API-интерфейсы, ориентированные на разработчиков, для подключения к различным сервисам.

Другими словами, CUA может использовать кнопки, перемещаться по меню и заполнять формы на веб-странице так же, как это делает человек.

OpenAI заявляет, что сотрудничает с такими компаниями, как DoorDash, eBay, Instacart, Priceline, StubHub и Uber, чтобы гарантировать, что Оператор соблюдает соглашения об условиях обслуживания этих компаний.

Оператор OpenAI
Кредиты изображений:ОпенАИ

«Модель CUA обучена запрашивать подтверждение пользователя перед завершением задач с внешними побочными эффектами, например, перед отправкой заказа, отправкой электронного письма и т. д., чтобы пользователь мог дважды проверить работу модели, прежде чем она станет постоянной», Об этом OpenAI пишет в материалах, предоставленных TechCrunch. «(Оно) уже доказало свою полезность во многих случаях, и мы стремимся распространить эту надежность на более широкий круг задач».

Но OpenAI предупреждает, что CUA не идеален. Компания заявляет, что «пока не ожидает, что CUA будет надежно работать во всех сценариях».

«В настоящее время Оператор не может надежно выполнять многие сложные или специализированные задачи», — добавляет OpenAI в документе поддержки, — «такие как создание подробных слайд-шоу, управление сложными календарными системами или взаимодействие с настраиваемыми или нестандартными веб-интерфейсами.

Из соображений предосторожности OpenAI также требует надзора за некоторыми задачами, такими как банковские транзакции, которые CUA и Оператор могут выполнять в основном самостоятельно. Например, пользователям придется ввести информацию о кредитной карте. OpenAI утверждает, что Оператор не собирает и не снимает скриншоты каких-либо данных.

«На особенно конфиденциальных веб-сайтах, таких как электронная почта, Оператор требует активного контроля со стороны пользователей, гарантируя, что пользователи могут напрямую выявлять и устранять любые потенциальные ошибки, которые может допустить модель», — говорится в материалах поддержки OpenAI.

Конечно, это ограничивает полезность Оператора, но также гарантирует, что у агента не возникнут галлюцинации и, скажем, он не потратит свой платеж по ипотеке на стулья с акцентом. Google применил аналогичный подход со своим AI-агентом Project Mariner, который также не вводит такую ​​информацию, как номера кредитных карт.

Ограничения

Оператор имеет несколько ограничений, на которые стоит обратить внимание.

Существуют ограничения скорости — как ежедневные, так и зависящие от задачи. OpenAI утверждает, что Оператор может выполнять несколько задач одновременно, но на это существуют «динамические ограничения». Существует также общий лимит использования, который сбрасывается ежедневно.

На этом этапе выпуска Оператор также полностью откажется от выполнения задач по соображениям безопасности, таких как отправка электронных писем (несмотря на то, что CUA способен на это) и удаление событий календаря. OpenAI утверждает, что в будущем ситуация изменится, но не называет расчетное время прибытия.

Оператор также может «застрять», если столкнется с особенно сложным интерфейсом, полем пароля или проверкой CAPTCHA. По словам OpenAI, в этом случае он попросит пользователя взять на себя управление.

Агентическое будущее

OpenAI довольно медленно разрабатывает ИИ-агент по сравнению с конкурентами (см. агенты Rabbit, Google и Anthropic), что может быть как-то связано с рисками безопасности, связанными с этой технологией.

Когда система ИИ может предпринимать действия в Интернете, она открывает двери для гораздо более опасных случаев использования со стороны гнусных субъектов. Вы можете автоматизировать агентов ИИ для организации фишинговых атак или DDoS-атак или заставить их украсть билеты на концерт раньше, чем это сделает кто-либо другой. Особенно для такого широко используемого инструмента, как ChatGPT, OpenAI важно принять меры для предотвращения подобных эксплойтов.

OpenAI, похоже, считает, что Оператор достаточно безопасен для выпуска в его нынешнем виде, по крайней мере, в качестве предварительного исследования.

«Оператор использует инструменты, которые стремятся ограничить восприимчивость модели к вредоносным подсказкам, скрытым инструкциям и попыткам фишинга», — объясняет OpenAI на своем веб-сайте. «Система мониторинга приостанавливает выполнение, если обнаруживается подозрительная активность, в то время как автоматизированные и проверяемые человеком конвейеры постоянно обновляют меры безопасности».

Оператор — это самая смелая попытка OpenAI создать агента искусственного интеллекта. На прошлой неделе OpenAI выпустила Tasks, предоставляя ChatGPT простые функции автоматизации, такие как возможность устанавливать напоминания и планировать запуск подсказок в установленное время каждый день.

Задачи предоставили пользователям ChatGPT некоторые знакомые, но необходимые функции, которые сделали ChatGPT таким же практичным в использовании, как Siri или Alexa. Однако Оператор демонстрирует возможности, которых никогда не было у виртуальных помощников предыдущего поколения.

Агенты ИИ позиционируются как следующая большая вещь в области ИИ после ChatGPT: новая технология, которая изменит то, как люди используют Интернет и свои компьютеры. Вместо того, чтобы просто доставлять и обрабатывать информацию, агенты теоретически могут предпринимать действия и фактически что-то делать.

С выпуском первого конкретного подхода OpenAI к агентам вскоре станет ясно, насколько реалистично это видение.

Previous post JPMorgan повышает зарплату генеральному директору Джейми Даймону на 8% до $39 млн
Next post «Манчестер Юнайтед» – «Рейнджерс» 2:1: остаются сомнения по поводу будущего Маркуса Рэшфорда и Алехандро Гарначо