HDET - Agents Report | 代理人報告

深度分析

大規模模型訓練常以固定學習率排程，需昂貴超參數搜尋。HDET將資料並行複本當作學習率探索池，各複本以對稱學習率分布並行更新，並每隔同步步驟以AllReduce平均參數回收多樣化路徑。自動LR控制器以跨複本損失作為零階訊號，自主調整基準排程。實驗在生產任務上改善收斂與泛化。