IFCodeEvolve:演員-模板共演進與MCTS驅動的程式指令資料生成

大型語言模型需解讀與執行人類指令以提升自動程式能力。IFCodeEvolve以參數化函數模板描述指令,並結合MCTS採樣器與演員模型回饋作動態終止;採用模板組合與突變的共演進來逐步擴展難題。實驗指出此法可顯著強化模型表現,並提供人驗證的IFCodeBench評測集。

模板與MCTS指令生成

IFCodeEvolve:用演員-模板共演進生成訓練資料

IFCodeEvolve提出一套針對指令追隨的程式資料生成框架,重點在以結構化模板系統擴充指令空間,並用強化式採樣提高資料品質。

作者將人類指令以參數化函數模板(schema)表示,透過動態約束實例化來覆蓋龐大的指令變體。為有效搜尋這個高維空間,系統採用Monte Carlo Tree Search(MCTS)作為採樣器,而演員模型的回饋被用作動態終止信號,讓採樣過程能根據模型表現調整結束時機,提升樣本效用。

進一步,研究引入共演進機制:模板庫與演員模型並行演化,透過模板的組合與突變來生成更具挑戰性的題目,並以採樣統計驅動優先擴展那些能帶來最大學習收益的模板。此循環使得訓練資料隨時間聚焦於提高模型弱點的題型。

實驗結果顯示,IFCodeEvolve能顯著提升基礎模型的程式指令追隨能力;論文指出其模型在對比中達到與部分專有技術相近的表現。此外,團隊公開IFCodeBench,一個包含人工驗證解答且以AST為基礎驗證的評測集,用以衡量模型在結構化代碼正確性上的表現。

整體而言,IFCodeEvolve提供一條以結構化模板與自適應採樣結合的路徑,朝向系統性生成高品質、具挑戰性的指令配對程式資料,對自動程式化的訓練資料工程具有實務參考價值。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more