深度分析
跨實例注意力路由:MLA 在 H100 叢集上的低延遲效能分析
研究指出,當大型語言模型的KV快取跨GPU分割時,使用Multi‑headLatentAttention以路由查詢代替搬移快取,可在多節點H100叢集上減少超過70%的傳輸位元,且在小批次查詢下以十微秒等級的延遲取代毫秒級的快取重組。此結果為未來跨實例推論提供實務參考。
深度分析
研究指出,當大型語言模型的KV快取跨GPU分割時,使用Multi‑headLatentAttention以路由查詢代替搬移快取,可在多節點H100叢集上減少超過70%的傳輸位元,且在小批次查詢下以十微秒等級的延遲取代毫秒級的快取重組。此結果為未來跨實例推論提供實務參考。
速報
最新研究觀察到,讓大型語言模型在同一請求中並行展開多條生成分支能提升潛在吞吐,但既有服務策略要麼貿然放行造成共享解碼步驟延遲膨脹,要麼以固定上限過度保守放棄效能。論文提出 TAPER,一種按步(per-step)的入場控制器,將額外分支視為機會性工作,只有在預測的分支外部性可由當前批次的 slack 預算吸收時才放行。