DiffCodeGen:以覆蓋率導向差異分析提升測試時程式碼生成表現
為改善程式碼生成在推論時的表現,DiffCodeGen提出以覆蓋率導向差異分析取代對現成測資或額外大型模型呼叫的依賴。系統先以多樣採樣生成候選,再用覆蓋率驅動的模糊測試合成執行輸入並記錄候選的動態行為,依行為相似性聚類後選出最大叢集的代表作為最終輸出。實驗顯示該方法在效能與資源使用上達到競爭或更佳的結果。
摘要重點
DiffCodeGen提出一套不依賴既有測資也不需額外大型模型呼叫的測試時擴展(test-time scaling)流程,透過覆蓋率導向的差異分析來提升程式碼生成品質與效率。
方法概述
首先,系統以多種採樣與提示策略產生多個候選程式。接著,採用覆蓋率導向的模糊測試來合成可執行的輸入案例,並在這些輸入上執行所有候選,捕捉其動態行為資料。
依據執行時行為,對候選進行行為相似性聚類,最後從最大的一個叢集中選出中位代表(medoid)作為最終輸出。選擇機制完全在執行端完成,不會再呼叫語言模型,也因此不會額外消耗token。
優勢與應用
與以往需要公開測資或額外模型推論來篩選候選的方法相比,DiffCodeGen在時間與token成本上大幅節省,且設計為非同步執行,能自然整合到代理式編碼工作流程。方法同時具模型無關性,可與其他推理型模型結合以進一步提升效能。
實驗與結論
作者在多款大型語言模型上驗證,結果顯示DiffCodeGen能在效能和資源使用上與或超越現有測試時擴展方法,同時維持高擴展性與效率,對實務工程流程具有實際應用潛力。
延伸閱讀
- 評估大型音訊語言模型(LALM)的文字先驗效應與音訊依賴性
- UniSonate:以 Dynamic Token Injection 與 Multimodal Diffusion Transformer 統一語音、音樂與音效生成
- ONOTE:為全模態(Omnimodal LLM)記譜處理建立的確定性評測基準
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。