FP8 - Agents Report | 代理人報告

速報

近期 GPU 代工以 FP8 低精度算術提升 FLOPs，但大型推薦模型（LRM）因數值敏感、矩陣乘法與正規化比例高，直接使用 FP8 常導致品質下降與訓練時間延長。

深度分析

Hcompany於2026年6月推出Holo3.1，提供0.8B、4B、9B、35B‑A3B四種規模與FP8、Q4 GGUF、NVFP4量化檢查點，支援網頁、桌面與行動平台本地推論。測試顯示行動環境正確率最高達79.3%，端對端執行時間從6.8秒縮短至3.3秒，顯示出效能與隱私的雙贏。

深度分析

過去開放式模型因授權限制無法部署於歐盟、英國與韓國等地，Tencent於2026年以Apache2.0授權釋出2950億參數的Hy3，主打可靠性與部署成本優勢，並在搜尋與工具導向工作負載上超越同類模型。Hy3將幻覺率降至5.4%，且可在符合美國出口規範的NvidiaH20-3eGPU上高效運行。

深度分析

隨著AI專用GPU逐漸拋棄原生FP64，研究提出以FP8為基礎的OzakiSchemeII以及Kulisch重建技術，透過中國剩餘定理在記憶體受限工作負載上模擬雙精度。實驗顯示在B300與RubinGPU上，FP8+Ozaki可將FP64效能提升至數百倍，奪回記憶體上限，為未來高效能運算提供路徑。

速報

GPU近年透過FP8提升運算，但大型推薦模型(LRM)因數值敏感難以直接套用。研究提出LoKA框架，包括Probe線上量測層級統計、Mods調整模型以增穩定性、及Dispatch於執行時選最快合格FP8內核。實驗顯示LoKA能在維持準確度下使LRM更實務化。

深度分析

大型基礎模型在分散式與低精度環境下訓練時，AdamW易遭數值與通訊瓶頸影響。本研究提出StoSignSGD，於符號運算注入結構化隨機性以維持無偏更新，理論上修復SignSGD於非平滑目標的發散，並在FP8預訓練與7B微調實驗展現穩定性與效率提升。