深度分析 Moonwalk:在可逆網路上以逆雅可比實現向前微分的記憶優化 深度學習訓練通常受限於反向傳播的高記憶需求。本文提出一套以向前模式為基礎的技術,採用向量-逆雅可比乘積在可逆網路上先求輸入梯度,接著前向累積計算參數梯度,從而保留真實梯度同時降低記憶使用。實驗顯示此法在時間效率接近反向傳播的情況下,能明顯縮減記憶占用並適用於多種架構。