llm-inference

深度分析

面對雲端 GPU 成本與推論吞吐的雙重壓力，連續批次（continuous batching）雖能降低 padding 浪費，卻仍受限於預設的同步流程，使 CPU 與 GPU 交替閒置。