深度分析
ACE:以對抗單元測試與偏好優化驅動的自我演化程式碼生成框架
面對標註資料成本與驗證覆蓋限制,ACE提出一套以執行為中心的自我演化機制:同一大型語言模型交替扮演解題器與對抗器,對抗器不產生期望輸出,而是生成能誘發運行時錯誤或例外的單元測試輸入;以執行結果建構布林矩陣,挑選穩健解答作為監督資料,並以偏好優化強化對抗器。
深度分析
面對標註資料成本與驗證覆蓋限制,ACE提出一套以執行為中心的自我演化機制:同一大型語言模型交替扮演解題器與對抗器,對抗器不產生期望輸出,而是生成能誘發運行時錯誤或例外的單元測試輸入;以執行結果建構布林矩陣,挑選穩健解答作為監督資料,並以偏好優化強化對抗器。
速報
背景:DPO能學習偏好但難給多步推理段落回饋。方法:HiPO把回應拆成查詢與背景、推理步驟、答案三段,對各段分別計算並加權DPO損失。結果:在Math Stack Exchange偏好資料上微調多款7B模型後,HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。
深度分析
研究聚焦於利用作者回覆提升大型語言模型的建設性論文回饋。提出GoodPoint資料集與訓練流程,結合有效性與可執行性標註,並使用偏好優化。實驗顯示模型成功率提升超過八成,超越同尺寸競品。
深度分析
研究聚焦於偏好優化方法背後的關鍵因素,將偏好對的品質差異分為生成器層面與樣本層面,透過調整模型規模與使用 LLM 評審多維度推理品質,發現前者能提升跨域推理表現,後者則提高資料訓練效率。