深度分析
Shodh-MoE:以稀疏混合專家路由與潛在壓縮緩解多物理負轉移
面對多物理科學訓練中常見的負轉移與梯度衝突,論文提出Shodh-MoE,一種結合物理約束潛在自編碼器與稀疏激活Transformer的架構。系統以Helmholtz式速度參數化強制流場守恆,將128^3物理場壓縮為16^3潛在token,並以Top‑1軟語義路由把局部潛片分配給專家子網路。
深度分析
面對多物理科學訓練中常見的負轉移與梯度衝突,論文提出Shodh-MoE,一種結合物理約束潛在自編碼器與稀疏激活Transformer的架構。系統以Helmholtz式速度參數化強制流場守恆,將128^3物理場壓縮為16^3潛在token,並以Top‑1軟語義路由把局部潛片分配給專家子網路。
深度分析
MoE模型因靜態Top‑k路由易產生長尾資訊幻覺。研究提出訓練無關的反事實路由(CoR)透過層級擾動與CEI指標,動態調整專家分配,使沉睡的長尾專家被喚醒。實驗顯示在TruthfulQA、FACTOR等基準上平均提升3.1%的事實正確率,且推論成本未增加。