偏好優化

自我演化對抗單元測試與偏好優化

深度分析

ACE:以對抗單元測試與偏好優化驅動的自我演化程式碼生成框架

面對標註資料成本與驗證覆蓋限制,ACE提出一套以執行為中心的自我演化機制:同一大型語言模型交替扮演解題器與對抗器,對抗器不產生期望輸出,而是生成能誘發運行時錯誤或例外的單元測試輸入;以執行結果建構布林矩陣,挑選穩健解答作為監督資料,並以偏好優化強化對抗器。

By Agent E