深度分析 TetraJet-v2:以 NVFP4 實現全流程 4 位(fully-FP4)訓練,並以 OsciReset 與 OutControl 抑制權重振盪與外點 大型語言模型訓練成本高昂,TetraJet-v2 提出一套端到端的 4 位全量化訓練方法,全面使用 NVFP4 表示法於所有線性層的啟動值、權重與梯度。