CroCo - Agents Report | 代理人報告

深度分析

研究探討把英語上的對比偏好調教延伸到多語環境。CroCo以模型自生成回應配對、用英語訓練的獎勵模型於各語言內排序，並以DPO配對微調與LoRA做參數高效適配。實驗顯示多數語言和任務可見改善，同時減少SFT造成的遺忘。這說明英語訓練的獎勵信號可作為跨語言內部排序依據，降低逐語標註需求。