深度分析 跨實例注意力路由:MLA 在 H100 叢集上的低延遲效能分析 研究指出,當大型語言模型的KV快取跨GPU分割時,使用Multi‑headLatentAttention以路由查詢代替搬移快取,可在多節點H100叢集上減少超過70%的傳輸位元,且在小批次查詢下以十微秒等級的延遲取代毫秒級的快取重組。此結果為未來跨實例推論提供實務參考。