Агент оператора Openai помог мне переехать, но мне тоже пришлось помочь

Openai дал мне одну неделю, чтобы проверить своего нового агента искусственного интеллекта, оператора, системы, которая может самостоятельно выполнять задачи для вас в Интернете.

Оператор — самая близкая вещь, которую я видел для видения технологической индустрии агентов искусственного интеллекта — систем, которые могут автоматизировать скучные части жизни, освобождая нас, чтобы делать то, что мы действительно любим. Тем не менее, судя по моему опыту с агентом Openai, действительно «автономные» системы ИИ все еще находятся вне досягаемости.

OpenAI обучил новую модель для оператора Power, которая объединяет визуальное понимание GPT-4O с возможностями рассуждений O1.

Эта модель, кажется, хорошо работает для основных задач; Я смотрел кнопки «Оператор», нажимает меню на веб -сайтах и заполнял формы. ИИ иногда был успешным в том, что он независимо предпринимал действия, и он работает намного быстрее, чем веб-агенты, которые я видел на Антрии и Google.

Но во время судебного разбирательства я обнаружил, что помогаю агенту Openai больше, чем хотел бы. Мне казалось, что я тренировал оператора через каждую проблему, тогда как я хотел полностью оттолкнуть определенные задачи с моей тарелки.

Слишком часто во время моего теста мне приходилось ответить на несколько вопросов, предоставить разрешения, заполнять личную информацию и помочь агенту, когда он застрял.

С точки зрения автомобиля, оператор похож на управление автомобилем с круиз-контролем-иногда снимая ногу с педалей и позволяя машине ездить на самом деле-но он далеко от полномасштабного автопилота.

На самом деле, Openai говорит, что частые паузы оператора по дизайну.

Оператор Powering AI, очень похожий на чат -ботов, такие как CHATGPT Openai, не может надежно работать самостоятельно в течение длительных периодов времени, и он подвержен таким же галлюцинированию. Из-за этого OpenAI не хочет давать системе слишком много мощности принятия решений или конфиденциальной информации пользователя. Может быть, это безопасный выбор от Openai, но он снижает практичность оператора.

Тем не менее, первый агент Openai является впечатляющим доказательством концепции — и интерфейса — для ИИ, который может использовать переднюю часть любого веб -сайта. Но чтобы создать по -настоящему независимые системы ИИ, технологические компании должны будут создавать более надежные модели ИИ, которые не требуют такого большого рулевого управления.

Немного слишком 'рук на'

Мое операторское испытание совпало с неделей, которую я переезжал в квартиры, поэтому у меня была помощь агента Openai с перемещением логистики.

Я попросил оператора помочь мне купить новое разрешение на парковку. Агент Openai сказал мне: «Конечно», затем открыл окно в свой браузер на экране моего компьютера.

Затем оператор провел поиск разрешения на парковку в Сан -Франциско в браузере, отвез меня на правильный городской веб -сайт и даже на правильную страницу.

Оператор по -прежнему позволяет вам использовать остальную часть вашего компьютера, пока он работает, что нельзя сказать для проекта Google Mariner. Это потому, что агент Openai на самом деле не работает на компьютере, а где -то в облаке.

Интерфейс оператора (кредит: Maxwell Zeff/Openai)

Для моей разрешения на парковку мне пришлось предоставить оператор разрешение на запуск различных процессов слишком много раз. Он также остановился, чтобы попросить меня заполнить формы личной информацией — например, мое имя, номер телефона и адрес электронной почты. Время от времени оператор также потерялся, заставляя меня взять под контроль браузер и вернуть агента в нужное русло.

В другом тесте я попросил оператора сделать мне бронирование в греческом ресторане. К чести, оператор нашел мне хорошее место в моем районе с разумными ценами. Но мне пришлось ответить на более чем полдюжины вопросов на протяжении всего потока.

Некоторые шаги к бронированию с оператором (кредит: Maxwell Zeff/OpenAI)

Если вам нужно вмешаться шесть или более раз, просто чтобы забронировать резервирование через агента искусственного интеллекта, в какой момент легче просто сделать это самостоятельно? Это вопрос, который я много задавал во время тестирования оператора.

Агент-как платформа

В некоторых из моих тестов я столкнулся с веб -сайтами, которые по любой причине заблокировали оператора. Например, я попытался забронировать электрика, используя TaskRabbit, но агент Openai сказал мне, что он столкнулся с ошибкой, и спросил, может ли он использовать альтернативную службу вместо этого. Expedia, Reddit и YouTube также заблокировали агент AI добраться до их платформ.

Тем не менее, другие услуги охватывают оператора с распростертыми объятиями. Instacart, Uber и eBay сотрудничали с OpenAI для запуска оператора, что позволило агенту ориентироваться в своих сайтах от имени людей.

Эти предприятия готовятся к будущему, когда агент ИИ облегчает подмножество взаимодействий с пользователями.

«Клиенты используют Instacart через различные точки входа», — сказал Дэниел Данкер, директор по продукту в Instacart, в интервью TechCrunch. «Мы видим оператора как, возможно, еще одну из этих точек входа».

Позвольте агенту Openai использовать веб -сайт Instacart от имени человека, похоже, он отделит Instacart от своих клиентов. Тем не менее, Данкер говорит, что Instacart хочет встретить клиентов, где бы они ни находились.

«Мы действительно оптимистичны в отношении нашей веры, аналогично Openai, что агентские системы окажут существенное влияние на то, как потребители взаимодействуют с цифровыми объектами»,-сказал главный сотрудник AI eBay Nitzan Mekel-Bobrov в интервью TechCrunch.

Даже если агенты ИИ поднимутся в популярности, Мекель-Бобров говорит, что он ожидает, что пользователи всегда придут на веб-сайт eBay, отметив, что «онлайн-направления никуда не денутся».

Доверие Проблемы

У меня были некоторые проблемы с доверительным оператором после того, как он несколько раз галлюцинировал, и почти стоил мне несколько сотен долларов.

Например, я попросил агента найти мне парковочный гараж возле моей новой квартиры. В итоге было предложено два гаража, которые, как сказали, займет всего несколько минут, чтобы ходить.

Галлюцинация на расстояниях на парковку (кредит: Максвелл Зефф/Openai)

Помимо того, что я вышел из моего ценового диапазона, гаражи действительно были очень далеко от моей квартиры. Один был в 20 минутах ходьбы, а другой-30-минутной прогулки. Оказывается, оператор поместил не тот адрес.

Именно поэтому OpenAI не дает своему агенту номер вашей кредитной карты, пароли или доступ к электронной почте. Если бы Openai не позволил мне вмешаться здесь, оператор бы потратил бы впустую сотни долларов на месте для парковки, которое мне не нужно.

Подобные галлюцинации являются ключевым препятствием для действительно полезных автономных агентов — те, которые могут снять надоедливые задачи с вашей тарелки. Никто не будет доверять агентам, если они склонны делать основные ошибки, особенно ошибки с реальными последствиями.

С оператором, OpenAI, похоже, создал несколько впечатляющих инструментов, позволяющих системам искусственного интеллекта просматривать Интернет. Но эти инструменты не будут многочисленными, пока подкрепляющий ИИ не сможет надежно делать то, что пользователи просят его сделать. До тех пор люди будут застрять, помогающие агентам, а не наоборот. И такого рода побеждает смысл.

Немного слишком 'рук на'

Агент-как платформа

Доверие Проблемы

Не отправляйте одиноких, мужских ищущих убежища в провал Бельгии, Голландский суд рассказывает правительству-Politico

Вытащите скрипки! Россия хлопает в Италию за отмену концерта проупутина-Politico-Politico

Сотни организаций, нарушенных массовыми хэками SharePoint

Восемь месяцев спустя, шведский единорог милый пересекает рубеж за 100 миллионов долларов США.

Uber наконец -то позволяет женщинам -гонщикам в США совпадать с водителями женщин

Великобритания направляет правила в магазинах приложений Apple и Google — Politico

«Политические заземления за круглым столом» на саммите ищут истины 2025

Как Tric Robotics уменьшает использование пестицидов на клубнике с помощью ультрафиолетового света

Великобритания и Индия собираются подписать знаковую торговую сделку, но не все счастливы | Денежные новости

Von der Leyen требует ответов от Зеленски, поскольку новый закон угрожает предложению ЕС — Politico

Трансферные новости: Насколько хорош Джоррел Хато? Ощущение подросткового подростка Ajax связано с Челси

Avalanche Energy попадает в ключевую веху на дороге к реактору настольного плавника