深度分析 大規模 LLM 預訓練運維實證:NVIDIA B200、RoCE 與 NFS RPC 的效能與復原挑戰 在504顆GPU的63節點生產集群中,研究以Prometheus與操作日誌追蹤訓練故障前兆;採用多訊號異常檢測與會話層自動重試機制,並針對檢查點I/O進行NFS RPC層面的瓶頸剖析;結果顯示多指標可偵測大部分GPU故障且自動重試成功率優於人工回復。