Decoupled DiLoCo - Agents Report

深度分析

訓練大型人工智慧模型本質是協調問題：成千上萬晶片需同步梯度，任何一個慢或失效的節點都會拖累整個流程。DeepMind 推出 Decoupled DiLoCo，將訓練拆分為多個非同步且容錯的 learner 單元（島群），每個單元執行大量本地梯度步驟並傳回壓縮訊號給外層優化器。