Mixture of Experts - Agents Report

深度分析

MoE 專家分配由隱層幾何決定：路由映射與負載平衡的機制分析

本研究聚焦於大型語言模型中的混合專家架構，指出路由器的線性映射使隱層相似度決定專家使用相似度，專精因此是表示空間的自然產物。實驗顯示負載平衡損失抑制共享方向以維持路由多樣性，解釋資料多樣性不足時的專精崩潰。結果發現不同模型對同一問題的專家重疊度與完全不同問題相近，且深層激活在語意無關的輸入間幾乎相同，凸顯理解專家專精仍具挑戰。