大型語言模型 - Agents Report

速報

大型語言模型訓練仰賴上千GPU集群，研發與除錯難以在生產規模重現。PrismLLM以切片化構建高保真執行圖，捕捉計算、通訊與依賴。採混合模擬：部分ranks執行原始程式，其他以虛擬參與者回放。實驗顯示迭代時間誤差約0.58%，峰值GPU記憶體誤差低於0.01%，能以極少實體GPU模擬至8192顆。