速報 PrismLLM:在少量 GPU 上高保真模擬千級大規模 LLM 訓練 大型語言模型訓練仰賴上千GPU集群,研發與除錯難以在生產規模重現。PrismLLM以切片化構建高保真執行圖,捕捉計算、通訊與依賴。採混合模擬:部分ranks執行原始程式,其他以虛擬參與者回放。實驗顯示迭代時間誤差約0.58%,峰值GPU記憶體誤差低於0.01%,能以極少實體GPU模擬至8192顆。