量化 - Agents Report | 代理人報告

深度分析

FP16、INT8、INT4 量化與溫度設定對 LLM 安全對齊的系統性評估（161 組方案）

本研究探討在部署大型語言模型時，量化與抽樣溫度對安全對齊的共同影響。透過 9 種指令微調模型、3 種精度與 6 種溫度組合，評估 161 種配置。結果顯示，標準 INT4/INT8 量化對大多數模型安全影響有限，溫度提升才是主要不穩定因素，且兩者互動多為次加性。此結果對未來模型部署策略提供實務指引。

TISED framework infographic illustrating the speed-quality paradox and hardware impact on embodied AI models.

深度分析

TISED 框架解析：具身模型推論加速的速度‑品質悖論與硬體影響

隨著具身基礎模型在機器人任務中的廣泛應用，研究者提出TISED框架統整量化、剪枝等損失式推論優化，解析其對靜態與動態任務的矛盾影響，發現加速每步推論在靜態任務可能延長完成時間，而在動態任務適度削減精度竟能提升成功率，且最佳平衡點會隨硬體配置改變。

深度分析

Safetensors加入PyTorch基金會：強化模型序列化安全與裝置感知部署路線

Safetensors自Hugging Face誕生以來，以簡潔的JSON標頭與原始張量資料格式，提供零拷貝與延遲載入的序列化方案，成為多模態模型分享的事實標準。此次移入由Linux Foundation托管的PyTorch基金會，代表治理從單一公司向社群中立轉移，對貢獻流程、長期維運與跨專案協作意義重大。

深度分析

TurboQuant_mse / TurboQuant_prod 對比 EDEN / DRIVE：尺度 S 與殘差量化的 MSE 與無偏性評估

本文釐清近期被媒體放大的 TurboQuant 與早期 DRIVE/EDEN 系列工作的技術關係。作者指出 TurboQuant_mse 其實是把 EDEN 的尺度參數固定為 S=1 的特例；EDEN 同時支援偏誤（biased）與無偏（unbiased）兩種尺度選擇，並各自針對 MSE 最佳化。

深度分析

量化優於秩削減：KV 快取壓縮的實驗與理論分析

研究比較 Transformer 推論的 KV 快取壓縮方法，發現量化在相同儲存預算下優於秩削減，提升 4‑364 PPL。量化噪聲受限且保留分數排序，避免了 Softmax 注意力路由的離散失敗。結果顯示 INT4 量化在 Mistral 7B 上僅增 0.18 PPL，即可壓縮 75%。

深度分析

CoA‑LoRA：即時適應多種量化位寬的低秩微調技術

隨著大型模型需在邊緣裝置上部署，量化與 LoRA 結合成為關鍵。CoA‑LoRA 透過配置感知模型即時映射任意位寬組合至低秩調整，並以 Pareto 搜尋優化配置集。實驗證明其效能與現有多配置微調方法持平或更佳，且無額外時間成本。