速報
模型合併新架構:C2M3、TSV 與 MERGE3 將已學習能力直接組合
背景:深度學習通常把模型獨立處理。作者主張在權重空間合併網路:單一任務以C2M3對齊參數,多任務以任務向量和TSV分解減低干擾,並以MASS路由和MERGE3節省評估成本。主要結果:建立理論與演算法基礎,促成已學習能力的組合與重用。可降低評估與部署摩擦。
速報
背景:深度學習通常把模型獨立處理。作者主張在權重空間合併網路:單一任務以C2M3對齊參數,多任務以任務向量和TSV分解減低干擾,並以MASS路由和MERGE3節省評估成本。主要結果:建立理論與演算法基礎,促成已學習能力的組合與重用。可降低評估與部署摩擦。
深度分析
在大模型壓縮與效能維持的挑戰下,研究提出 Branch‑Merge 蒸餾流程,先以領域微調產生專精學生模型,再合併以跨域知識傳遞。實驗顯示 TinyR1‑32B‑Preview 在數學、程式與科學基準上分別提升 5.5、4.4、2.9 分,且與原教師模型表現相近。此技術有望降低部署成本並推動開源大語言模型發展。