久久久国产精品视频_国产成人精品日本亚洲专_日本午夜大片免费观看视频_97av麻豆蜜桃一区二区

首頁 > 生活分享 > 免費教學 > 微軟研究:AI編程助手軟件調試能力堪憂

微軟研究:AI編程助手軟件調試能力堪憂

發布時間:2025-04-13 22:46:30來源: 12055991234

4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協助編程任務,谷歌首席執行官桑達爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執行官馬克?扎克伯格也表達了在公司內部廣泛部署 AI 編碼模型的雄心壯志。

然而,即便是一些目前最先進的 AI 模型,在解決軟件漏洞這一問題上,仍然無法與經驗豐富的開發者相媲美。微軟研究院(微軟的研發部門)的一項新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內的多款模型,在一個名為 SWE-bench Lite 的軟件開發基準測試中,無法成功調試許多問題。

研究的共同作者們測試了九種不同的模型,這些模型作為“基于單個提示詞的智能體”的核心,能夠使用包括 Python 調試器在內的一系列調試工具。他們給這個智能體分配了一組經過篩選的 300 項軟件調試任務,這些任務均來自 SWE-bench Lite。

據共同作者們介紹,即使配備了更強大、更先進的模型,他們的智能體成功完成的調試任務也極少超過一半。其中,Claude 3.7 Sonnet 的平均成功率最高,為 48.4%;其次是 OpenAI 的 o1,成功率為 30.2%;而 o3-mini 的成功率為 22.1%。

為何這些 AI 模型的表現如此不盡如人意?部分模型在使用可用的調試工具以及理解不同工具如何幫助解決不同問題方面存在困難。然而,共同作者們認為,更大的問題在于數據稀缺。他們推測,當前模型的訓練數據中,缺乏足夠多的“順序決策過程”數據,即人類調試痕跡的數據。

“我們堅信,訓練或微調這些模型可以使它們成為更好的交互式調試器。”共同作者們在研究報告中寫道,“然而,這需要專門的數據來滿足此類模型訓練的需求,例如記錄智能體與調試器交互以收集必要信息、隨后提出漏洞修復建議的軌跡數據。”

這一發現其實并不令人意外。許多研究都表明,代碼生成型 AI 往往會引入安全漏洞和錯誤,這是由于它們在理解編程邏輯等領域的薄弱環節所導致的。最近對一款流行的 AI 編程工具 Devin 的評估發現,它只能完成 20 項編程測試中的 3 項。

不過,微軟的這項研究是迄今為止對模型在這一持續存在問題領域最為詳細的剖析之一。盡管它可能不會削弱投資者對 AI 輔助編程工具的熱情,但愿它能讓開發者及其上級領導三思而后行,不再輕易將編程工作完全交給 AI 來主導。

IT之家注意到,越來越多的科技界領袖對 AI 會取代編程工作的觀點提出了質疑。微軟聯合創始人比爾?蓋茨曾表示,他認為編程作為一種職業將會長期存在。與他持相同觀點的還有 Replit 首席執行官阿姆賈德?馬薩德、 Okta 首席執行官托德?麥金農以及 IBM 首席執行官阿爾溫德?克里希納。

免費教學更多>>

2025年樓市王炸!成都房貸利率史低+雙降預期,購房窗口期來了? 3月北京、杭州房價漲幅搶眼,二手房是“小陽春”最大受益者 “你真的了解房產市場嗎?這三個常識其實是大坑” 房地產如何成功銷售房產:資深房地產從業者的實用指南 3月70城房價數據出爐 各線城市房價同比降幅繼續收窄 房產服務再升級!AI助力鄭州房產經紀人開啟數字化新篇章 iphone16怎么關機?iPhone4種關機辦法分享 影像V單vivo X200 Ultra今晚發布,超強配置提前解密 好看好拍又好用!vivo X200s放大招了,不能錯過的“好東西” 榮耀X60 GT千元屠榜全解析:驍龍8+與6300mAh背后的「精準刀法」 一加13T:iPhone 16的最佳“平替”?別糾結! 千元機用上驍龍8 Gen2?一加Ace3實測:170萬跑分能否碾壓新機? 搭載 6260mAh 超大冰川電池,一加 13T 突破小屏手機續航上限 刪掉這3個手機設置 電費直接降50%!99%的人都不知道的省電冷知識 9款手機扎堆發布,2000~6000元檔,誰才是最強新機? TCL這兩款電視,讓我徹底告別“畫質焦慮”! TCL三折疊屏黑科技碾壓華為Mate70?用過才發現差距這么大 諾基亞N9:工業美學的絕唱,為何至今無人超越? 紅米Turbo4 Pro真機首曝:“紅米史上最好看的手機”!2299元起? 紅米K90 Pro賣3500+還能算性價比嗎?聊聊漲價背后的真實考量 紅米Turbo 4 Pro升級旗艦金屬邊框,CNC + 噴砂工藝帶來旗艦級的質感 數碼科普:榮耀魅族手機定位 7000mah大電池加滿級防護,這款國產真我手機,全能的水桶機 鴻蒙生態突飛猛進,小米入局攪動風云,未來手機系統誰主沉??? 上汽集團:與OPPO深度戰略合作的智能座艙即將落地名爵MG品牌 試駕了2025款問界M9來說說我的感受 一汽大眾寶來:實力與性價比的完美結合 艾瑞澤 8:讓人又愛又 “恨” 的家用車寶藏?3優3缺,怎么看? 阿維塔 06 納米水離子空調是否為營銷噱頭? vivo X200系列怎么選?標準版、Pro版、Mini對比,看完立刻有答案