深度分析 E = T·H/(O+B):以無因次指標量化 Mixture-of-Experts 路由探索與專家生態 研究提出一個無因次控制參數E=T·H/(O+B),把路由溫度、路由熵權重、oracle監督權重與負載平衡權重合成一個「探索預算」。作者在視覺與語言模型上做12組受控實驗,發現當E≥0.5時可保證零「死掉的專家」,因此不再需要手工的負載平衡輔助損失。