深度分析 程式代理人遵循指示計畫的效能分析:四階段除錯流程的實證研究 研究聚焦於程式代理人是否遵循預設除錯計畫,透過四種大型語言模型在 SWE-bench 基準上測試八種計畫變體,發現提供標準計畫提升解決率,且定期提醒可減少違規;過於複雜的計畫反而降低效能,突顯微調教導模型遵循指示計畫的必要性。