深度分析
利用 PRISM 動態路由提升多教師蒸餾於視覺基礎模型的效能
研究針對多樣視覺基礎模型的負向傳遞問題,提出PRISM雙流條件化MoE框架,採用教師條件路由於兩階段分解與重組,並加入局部去相關損失防止淺層崩潰,使專家自動分化與動態組合,於PASCAL-Context與NYUD‑v2取得新紀錄,證實稀疏專業化能有效整合異質視覺知識,預示未來多模型蒸餾將走向動態路徑選擇。
深度分析
研究針對多樣視覺基礎模型的負向傳遞問題,提出PRISM雙流條件化MoE框架,採用教師條件路由於兩階段分解與重組,並加入局部去相關損失防止淺層崩潰,使專家自動分化與動態組合,於PASCAL-Context與NYUD‑v2取得新紀錄,證實稀疏專業化能有效整合異質視覺知識,預示未來多模型蒸餾將走向動態路徑選擇。
深度分析
JetBrains 於 2026 年 6 月發表 Mellum2,這是一款 12 億參數的 Mixture-of-Experts(MoE)模型,專為文字與程式碼工作負載設計。模型在每個 token 只激活約 2.5 億參數,實現超過同規模開源模型兩倍的推理速度,適用於路由、RAG、子代理與私有部署等高頻 AI 任務。
速報
Mixture-of-Experts(MoE)已成為前沿語言模型的主流架構,傳統的生產框架在效能與彈性上投入大量工程資源。為降低新架構與系統優化的開發成本,研究團隊提出以 AI 編碼代理人自動化開發的概念,並以此為基礎打造 PithTrain——一個針對代理人任務效率(ATE)優化的緊湊 MoE 訓練框架。
速報
ArXiv發表LagunaM.1與LagunaXS.2,兩款為長程代理式編碼設計的MoE基礎模型。作者說明在稱為ModelFactory的系統中從頭訓練與量化;M.1與XS.2在軟體工程與終端機基準上與同級開源模型相當,XS.2權重已以Apache2.0釋出。
深度分析
MiniMax發表深度技術報告,回顧M2系列(含M2、M2.5、M2.7)在稀疏Mixture-of-Experts、Grouped Query Attention(GQA)與工程化路徑上的關鍵取捨;
深度分析
隨著 AI 系統愈來愈仰賴多階層路由與工具調度,傳統以 Shapley 為基礎的歸因方法面臨成本與可評估性的限制。BOHM(Byproduct-of-Hierarchy Method)提出以系統已維護的路由權重直接建構層級歸因樹:葉節點以根到葉路徑權重乘積表徵信任分配,且在每個深度同時給出多解析度的分解。
速報
大型語言模型從雲端移向行動,電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程,量測耗能、延遲與生成品質;發現重要性感知量化雖能縮減記憶體占用但未顯著省電,模型架構才是電池表現關鍵,Mixture‑of‑Experts 提供低能耗下的大容量,並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。
深度分析
研究背景:大型語言模型常以巨型單體方式訓練與部署。核心做法:EMO在預訓練以文件邊界為弱監督,限制同文檔token在共享專家池內路由;同時採用全局負載平衡與隨機文件池大小以避免崩塌。主要影響:小比例專家即可保留接近整體效能,有助降低部署記憶體成本。
速報
DeepSeek 推出兩款 V4 大語言模型,採 mixture‑of‑experts 架構支援百萬 token。V4 Pro 參數達 1.6 兆,成最大開源模型;Flash 參數較少。新模型在推理基準上接近領先商業模型,程式碼表現與 GPT‑5.4 相當,知識測試稍遜。
大佬動態
SimonWillison發布訊號指出DeepSeek推出V4預覽版,兩款均為MixtureofExperts並支援100萬token上下文;Pro採1.6T總參數且49B啟動,Flash為284B總參數與13B啟動,並以MIT授權釋出;此一發布將擴展開放權重與長上下文實驗的可及性,可能影響研究與部署習慣。
深度分析
研究針對 MoE Transformer 的泛化與縮放行為,提出將活化容量與路由組合分離的理論框架,推導出與活化參數預算成正比的度量熵並加入路由開銷,證明在流形資料模型下的泛化界限與密集網路等價,並給予誤差可透過提升活化容量或增專家數量降低的建構性近似結果,最後提出模型、資料與計算的神經縮放律。
TalkLoRA
研究人員提出 TalkLoRA 框架,透過在 MoE-LoRA 結構中加入通訊模組,打破專家之間的獨立性假設,解決路由不穩定與專家主導問題。實驗證明,TalkLoRA 在語言理解與生成任務上優於傳統 LoRA 與 MoE-LoRA,能以更少的參數達成更高的微調效率與更均衡的專家利用率。