cuda - Agents Report | 代理人報告

深度分析

連續批次推論以同步流程為主，導致 CPU 與 GPU 交替閒置造成效能流失。文章以 CUDA streams 與 events 拆分 H2D/compute/D2H、採用雙槽與 carry-over 機制重疊批次準備，在不改模型情況下可顯著降低 GPU 閒置並提升整體吞吐。