
В прошлую пятницу Openai представила новую систему кодирования под названием Codex, предназначенная для выполнения сложных задач программирования из команд естественного языка. Codex перемещает Openai в новую когорту инструментов агентского кодирования, которая только начинает обретать форму.
От раннего рода GitHub до современных инструментов, таких как Cursor и Windsurf, большинство помощников по кодированию ИИ работают как исключительно интеллектуальная форма автозаполнения. Инструменты, как правило, живут в интегрированной среде разработки, и пользователи напрямую взаимодействуют с кодом, сгенерированным AI. Перспектива простого назначения задачи и возвращения, когда она закончена, в значительной степени недоступна.
Но эти новые агентские инструменты кодирования, возглавляемые такими продуктами, как Devin, Swe-Agent, OpenHands и вышеупомянутый кодекс Openai, предназначены для работы, чтобы пользователи никогда не видели код. Цель состоит в том, чтобы работать как менеджер инженерной команды, назначая проблемы через системы рабочих мест, такие как Asana или Slack, и проверить, когда было достигнуто решение.
Для верующих в формах высокоэффективного ИИ это следующий логический шаг в естественном развитии автоматизации, превышающей все больше и больше программных работ.
«Вначале люди только что написали код, нажимая на каждый клавиш»,-объясняет Килиан Лирет, исследователь Принстона и член команды SWE-агента. «Github Copilot был первым продуктом, который предлагал настоящий автоподрет, который является своего рода стадией. Вы все еще абсолютно в курсе, но иногда вы можете взять ярлык».
Цель для агентских систем состоит в том, чтобы полностью выйти за рамки средств разработчиков, вместо этого представляя кодирующие агенты с проблемой и оставлять их для решения самостоятельно. «Мы возвращаем вещи к уровню управления, где я просто назначаю отчет об ошибке, и бот пытается полностью его исправить», — говорит Лирет.
Это амбициозная цель, и до сих пор она доказала трудность.
После того, как Девин стал в целом доступным в конце 2024 года, он вызвал критику от ученых YouTube, а также более измеренную критику от раннего клиента в ответ.ai. Общее впечатление было знакомым для ветеранов, кодирующих атмосферу: с таким количеством ошибок, наблюдение за моделями занимает столько же работы, сколько выполнение задачи вручную. (Хотя развертывание Девина было немного скалистым, он не помешал сборщикам средств признать потенциал — в марте материнская компания Девина, познание AI, по сообщениям, собрала сотни миллионов долларов при оценке в 4 миллиарда долларов.)
Даже сторонники технологии осторожно осторожно против неконтролируемого кодирования атмосфера, рассматривая новые кодирующие агенты как мощные элементы в процессе развития, подлежащего человеку.
«Прямо сейчас, и я бы сказал, что в обозримом будущем человек должен вмешаться во время обзора кода, чтобы посмотреть на написанный код», — говорит Роберт Бреннан, генеральный директор All Hands AI, который поддерживает открытые отряды. «Я видел, как несколько человек работали в беспорядке, просто одобряя каждый код, который пишет агент. Он выходит из-под рукой».
Галлюцинации также являются постоянной проблемой. Бреннан вспоминает один инцидент, в котором, когда его спросили об API, который был выпущен после разрезания данных об обучении агента Apperhands, агент сработал детали API, который соответствует описанию. Все руки AI говорит, что работает над системами, чтобы поймать эти галлюцинации, прежде чем они могут причинить вред, но нет простого исправления.
Возможно, наилучшей мерой прогресса агентского программирования являются таблицы лидеров SWE-Bench, где разработчики могут проверить свои модели на ряд неразрешенных вопросов из репозиториев Open GitHub. В настоящее время OpenHands занимает первое место в проверенной таблице лидеров, решая 65,8% задачи. OpenAI утверждает, что одна из моделей, питающих Codex, Codex-1, может добиться большего успеха, перечисляя 72,1% баллов в своем объявлении-хотя оценка поступила с несколькими предостережениями и не была независимо проверена.
Обеспокоенность среди многих в технологической индустрии заключается в том, что высокие баллы не обязательно приводят к действительному агентскому кодированию. Если агентские кодеры могут решить только три из каждых четырех проблем, они потребуют значительного контроля со стороны человеческих разработчиков, особенно при борьбе с сложными системами с несколькими этапами.
Как и большинство инструментов искусственного интеллекта, надежда состоит в том, что улучшения в моделях фундаментов будут приходить в стабильные темпы, в конечном итоге позволяя агентским системам кодирования превратиться в надежные инструменты разработчика. Но поиск способов управления галлюцинациями и другими проблемами надежности будет иметь решающее значение для достижения туда.
«Я думаю, что есть немного звукового барьерного эффекта», — говорит Бреннан. «Вопрос в том, сколько доверия вы можете перейти к агентам, поэтому они извлекают больше от вашей рабочей нагрузки в конце дня?»