深度分析 Alpamayo 1 延遲優化:單一推理與靜態 KV + CUDA Graph 加速 端到端自駕系統因解釋性不足,推動以推理驅動的路徑與行為生成。本文將Alpamayo從每軌道獨立推理改為單一推理並優化擴散式動作生成的KV快取與CUDA graph執行,顯著降低推論延遲同時保持軌跡多樣性與預測品質。在開放與封閉迴路實驗中驗證,推論延遲降低69.23%且軌跡多樣性與預測品質維持可比。