深度分析 Guard:以訓練步時間為核心的節點健康與落後偵測系統 在數萬 GPU 的大規模基礎模型訓練中,輕微的效能退化會累積成顯著效率損失。論文提出 Guard,一套結合線上低開銷效能監控與離線節點掃描的系統,利用訓練步時間作為終端效能信號,能偵測短暫故障與長期「慢化」節點。