深度分析 多語言微調突破:Bucket‑Level MOO 以 Refined Pareto Stationarity 降低負向干擾 隨著大型語言模型跨語言能力提升,微調常產生語言間負向干擾。研究將多語言微調視為多目標最佳化,提出Bucket‑Level MOO,在參數桶內局部解決梯度衝突,避免全模型梯度聚合的高成本。實驗顯示此法顯著提升已見與未見語言的表現,並促使模型形成語言專屬維度。