深度分析 MoE 專家分配由隱層幾何決定:路由映射與負載平衡的機制分析 本研究聚焦於大型語言模型中的混合專家架構,指出路由器的線性映射使隱層相似度決定專家使用相似度,專精因此是表示空間的自然產物。實驗顯示負載平衡損失抑制共享方向以維持路由多樣性,解釋資料多樣性不足時的專精崩潰。結果發現不同模型對同一問題的專家重疊度與完全不同問題相近,且深層激活在語意無關的輸入間幾乎相同,凸顯理解專家專精仍具挑戰。