深度分析 在 63 節點、504 張 NVIDIA B200 GPU 的 LLM 預訓練:從故障偵測到自動回復的實作分析 本報告以一個 63 節點(504 張 NVIDIA B200 GPU)的生產訓練叢集為實例,利用 55 天 Prometheus 時序資料與 73 天營運日誌,針對大型語言模型(LLM)預訓練的故障偵測、檢查點 I/O 與多節點回復流程進行實證分析。研究發現:單一指標無法穩定預警,需採多訊號交叉比對以提升故障前兆偵測;