後訓練量化 - Agents Report

深度分析

擴散大型語言模型（dLLM）透過多輪遮蔽與去噪逐步生成文字，但其不可逆的寫入機制使得低位元量化時，邊緣決策容易被量化噪聲翻轉，進而在後續迭代中被永久鎖定並放大。FAIR-Calib 提出兩階段的後訓練量化框架：第一階段利用全精度教師模型探測寫入前緣的穩定性先驗，結合寫入次數與遮蔽階段的可靠性；

深度分析

MoE 大型語言模型效能佳但資源消耗高。MoBiE 透過聯合 SVD、全局梯度融合 Hessian 與零空間誤差約束，解決跨專家冗餘與路由偏移問題。實驗顯示在 Qwen3‑30B‑A3B 上 perplexity 降 52.2%，零樣本表現升 43.4%，推論速度提升逾 2 倍。

深度分析

後訓練量化是降低深度模型資源需求的關鍵技術。研究提出 OPTQ 與 Qronos 的誤差上界，說明迭代量化過程與正則化參數的影響，並證實特徵排序與參數選取的合理性，為實務應用提供理論依據。