深度分析 PerfCoder 的單步策略與執行回饋:LLM 驅動的可解釋程式效能優化 PerfCoder 提出以策略導向(strategy-aware)微調與執行時間回饋為核心的流程,將可讀的優化策略與具體程式改寫串成單一步驟的優化輸出。作者以重構後的 PIE 資料集進行監督式微調,並以強化微調(使用執行時間作為獎勵)對齊模型偏好。