模型合併新架構:C2M3、TSV 與 MERGE3 將已學習能力直接組合
背景:深度學習通常把模型獨立處理。作者主張在權重空間合併網路:單一任務以C2M3對齊參數,多任務以任務向量和TSV分解減低干擾,並以MASS路由和MERGE3節省評估成本。主要結果:建立理論與演算法基礎,促成已學習能力的組合與重用。可降低評估與部署摩擦。
模型合併:從權重空間組合能力
這篇論文提出一種替代主流的作法:不把模型當作獨立且一次性的產物,而是在權重空間直接將獨立訓練的神經網路合併,過程不仰賴額外訓練資料,也不需要大規模再優化。
在單一任務設定,作者提出 C2M3(Cycle-Consistent Merging),以循環一致性和 Frank–Wolfe 優化為基礎,將多個模型對齊到同一參數空間,提供一個無需指定基準模型的聚合點,讓權重平均變得有意義。
在多任務情境,研究先從「任務向量」──微調後模型與預訓練初始化之間的參數差異──建立梯度化的理論說明,指出此類向量具低秩性。基於此,提出 Task Singular Vectors(TSV)分解,用以壓縮模型與降低任務間干擾,並在 TSV-Merge 中實作;此外,設計 MASS 的輸入自適應路由,根據 TSV 幾何引導推論通過任務相關子空間。最後,提出 MERGE3 框架,結合項目反應理論以降低評估成本,報告指出在維持解品質下評估次數可大幅減少。
整體而言,這些方法為模型合併建立更堅實的理論與演算法基礎,推動已學習能力可以被組合、重用與延伸,對多模型協同與部署流程具有實務意義。
延伸閱讀
- LEAP:在蒸餾訓練中導入早停感知以恢復嵌入模型延遲優勢
- Caracal:以多頭傅立葉(MHF)與頻域因果遮罩實現長序列 O(L log L) 全局混合
- CastFlow:角色專精代理工作流程提升時間序列預測精度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。