code-optimization - Agents Report

深度分析

PerfCoder 提出以策略導向（strategy-aware）微調與執行時間回饋為核心的流程，將可讀的優化策略與具體程式改寫串成單一步驟的優化輸出。作者以重構後的 PIE 資料集進行監督式微調，並以強化微調（使用執行時間作為獎勵）對齊模型偏好。