GH200 - Agents Report | 代理人報告

深度分析

大型語言模型服務面臨嚴苛延遲SLO與GPU記憶體限制。論文提出SuperInfer，結合RotaSched排程與DuplexKV雙工KV轉移，在GH200Superchip上透過主動旋轉與全雙工傳輸，大幅提升TTFT達成率並維持TBT與吞吐。