深度分析 在 DDP+OneCycleLR 下的 HDET:跨複本學習率搜尋與週期性平均 大規模模型訓練常以固定學習率排程,需昂貴超參數搜尋。HDET將資料並行複本當作學習率探索池,各複本以對稱學習率分布並行更新,並每隔同步步驟以AllReduce平均參數回收多樣化路徑。自動LR控制器以跨複本損失作為零階訊號,自主調整基準排程。實驗在生產任務上改善收斂與泛化。