Microsoft показывает, что модели искусственного интеллекта по -прежнему пытаются отлаживать программное обеспечение.

Модели ИИ из OpenAI, антропного и других лучших лабораторий ИИ все чаще используются для оказания помощи в задачах программирования. Генеральный директор Google Sundar Pichai заявил в октябре, что 25% нового кода в компании генерируется ИИ, а генеральный директор Meta Марк Цукерберг выразил амбиции широко развернуть модели кодирования ИИ в гиганте социальных сетей.

Тем не менее, даже некоторые из лучших моделей сегодня изо всех сил пытаются разрешить программные ошибки, которые не будут отключить опытных разработчиков.

Новое исследование от Microsoft Research, Microsoft R & D Division, показывает, что модели, в том числе Claude 3.7 Sonnet's Antropic и Openai's O3-Mini, не отлаживают много проблем в эталонном эталоне разработки программного обеспечения под названием Swe-Bench Lite. Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления от таких компаний, как OpenAI, ИИ по -прежнему не совпадает с экспертами людей в таких областях, как кодирование.

Соавторы исследования протестировали девять различных моделей в качестве основы для «единого агента на основе приглашения», который имел доступ к ряду инструментов отладки, включая отладку Python. Они поручили этому агенту решение кураторского набора из 300 задач отладки программного обеспечения от Swe-Bench Lite.

По словам соавторов, даже когда они оснащены более сильными и более недавними моделями, их агент редко выполнял более половины задач отладки. У Claude 3,7 Sonnet был самый высокий средний показатель успеха (48,4%), за которыми следуют O1 Openai O1 (30,2%) и O3-Mini (22,1%).

Microsoft AI Bendging
Диаграмма из исследования. «Относительное увеличение» относится к моделям Boost, которые были оснащены инструментами отладки.Кредиты изображения:Microsoft

Почему не в восторге? Некоторые модели изо всех сил пытались использовать доступные для них инструменты отладки и понять, как различные инструменты могут помочь с разными проблемами. По словам соавторов, более широкой проблемой была нехватка данных. Они предполагают, что не хватает данных, представляющих «последовательные процессы принятия решений», то есть следы отладки человека-в учебных данных текущих моделей.

«Мы твердо верим, что обучение или точная настройка (модели) могут сделать их лучшими интерактивными отлаживаниями»,-написали соавторы в своем исследовании. «Тем не менее, это потребует специализированных данных для выполнения такой модели, например, данных о траектории, которые записывают агенты, взаимодействующие с отладчиком для сбора необходимой информации, прежде чем предлагать исправление ошибки».

Результаты не совсем шокирующие. Многие исследования показали, что ИИ, генерирующий код, имеет тенденцию внедрять уязвимости и ошибки безопасности из-за недостатков в таких областях, как способность понимать логику программирования. Одна недавняя оценка Devin, популярного инструмента кодирования ИИ, обнаружила, что он может пройти только три из 20 тестов программирования.

Но работа Microsoft является одной из наиболее подробных взглядов, но в постоянной проблемной области для моделей. Скорее всего, он не ослабит энтузиазм инвесторов по поводу вспомогательных инструментов кодирования на основе AI, но, если повезет, это заставит разработчиков-и их высшие горы-дважды подумайте о том, чтобы позволить ИИ запустить шоу кодирования.

Что касается того, что это стоит, все большее число технических лидеров оспорили представление о том, что ИИ автоматизирует работу по кодированию. Соучредитель Microsoft Билл Гейтс сказал, что он считает, что программирование как профессия здесь, чтобы остаться. Так же как и генеральный директор Repit Amjad Masad, генеральный директор Okta Тодд Маккиннон и генеральный директор IBM Арвинд Кришна.

Previous post Последнее обновление Bluesky добавляет реакции в чате и страницу «Исследование», аналогично x
Next post Breeal, в котором говорится, что у него 40 м ежемесячных пользователей, разрабатывает рекламу в США