深度分析 HyperFlexis:結合 Prefill/Decode 分離與 D2D 權重傳輸的多 SLO LLM 調度系統 面對多樣化請求與複雜SLO,研究提出HyperFlexis,結合多SLO調度與彈性擴縮策略,支援Prefill/Decode分離與D2D權重傳輸。實驗顯示SLO達成率大幅提升且延遲顯著下降,成本具競爭力。可在同時處理延遲敏感與高吞吐任務,縮短冷啟時間並降低權重載入成本。