深度分析 步驟感知溫度縮放 (ReSET) 提升 NVFP4 大型推理模型的精度與效能 NVFP4低精度能減少推理成本,但在大型推理模型上會降低正確率。研究提出ReSET以步驟熵調整溫度,並設計小批次CUDA‑corekernel,實測提升2點準確度與最高2.5倍解碼速度,同時克服Tensor‑Core小批次佔用低問題,為邊緣AI部署深層模型提供可行路徑。