深度分析 BitCal-TTS:針對 4-bit 後訓量化推理的位元感知停機校準器 在記憶體與延遲受限的部署場景下,4 位元後訓量化能讓大型推理模型實務化,卻會扭曲用於決定是否繼續推理的線上訊號,導致過早中止或浪費算力。BitCal-TTS 提出一個輕量級、無須微調的執行時控制器:結合便宜的逐片段不確定度與穩定性近似量、依位元精度調整的信心重標定,以及對 GSM8K 類型輸出設計的標記後確認視窗。