深度分析 Decoupled DiLoCo(Distributed Low-Communication):跨區預訓練的非同步容錯解法 訓練大型人工智慧模型本質是協調問題:成千上萬晶片需同步梯度,任何一個慢或失效的節點都會拖累整個流程。DeepMind 推出 Decoupled DiLoCo,將訓練拆分為多個非同步且容錯的 learner 單元(島群),每個單元執行大量本地梯度步驟並傳回壓縮訊號給外層優化器。