深度分析 UFP4 均勻格點解決 FP4 訓練收縮偏差:E1M2 方案與 LLM 大規模應用前瞻 FP4 訓練因成本壓力受矚目,E2M1 格式固有收縮偏差導致層間信號衰減,RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT,僅在 dY 上使用隨機捨入,顯著降低 BF16 相對損失,建議未來硬體支援均勻 4 位元作為第一類訓練原語。