二元化 - Agents Report | 代理人報告

深度分析

MoE 大型語言模型效能佳但資源消耗高。MoBiE 透過聯合 SVD、全局梯度融合 Hessian 與零空間誤差約束，解決跨專家冗餘與路由偏移問題。實驗顯示在 Qwen3‑30B‑A3B 上 perplexity 降 52.2%，零樣本表現升 43.4%，推論速度提升逾 2 倍。