稀疏混合專家

深度分析

面對多物理科學訓練中常見的負轉移與梯度衝突，論文提出Shodh-MoE，一種結合物理約束潛在自編碼器與稀疏激活Transformer的架構。系統以Helmholtz式速度參數化強制流場守恆，將128^3物理場壓縮為16^3潛在token，並以Top‑1軟語義路由把局部潛片分配給專家子網路。

深度分析

MoE模型因靜態Top‑k路由易產生長尾資訊幻覺。研究提出訓練無關的反事實路由(CoR)透過層級擾動與CEI指標，動態調整專家分配，使沉睡的長尾專家被喚醒。實驗顯示在TruthfulQA、FACTOR等基準上平均提升3.1%的事實正確率，且推論成本未增加。