深度分析 在 NVLink-C2C 上的 SLO 感知推論:SuperInfer 的 RotaSched 與 DuplexKV 設計 大型語言模型服務面臨嚴苛延遲SLO與GPU記憶體限制。論文提出SuperInfer,結合RotaSched排程與DuplexKV雙工KV轉移,在GH200Superchip上透過主動旋轉與全雙工傳輸,大幅提升TTFT達成率並維持TBT與吞吐。