低位元量化 - Agents Report

深度分析

擴散大型語言模型（dLLM）透過多輪遮蔽與去噪逐步生成文字，但其不可逆的寫入機制使得低位元量化時，邊緣決策容易被量化噪聲翻轉，進而在後續迭代中被永久鎖定並放大。FAIR-Calib 提出兩階段的後訓練量化框架：第一階段利用全精度教師模型探測寫入前緣的穩定性先驗，結合寫入次數與遮蔽階段的可靠性；