向前微分 - Agents Report

深度分析

深度學習訓練通常受限於反向傳播的高記憶需求。本文提出一套以向前模式為基礎的技術，採用向量-逆雅可比乘積在可逆網路上先求輸入梯度，接著前向累積計算參數梯度，從而保留真實梯度同時降低記憶使用。實驗顯示此法在時間效率接近反向傳播的情況下，能明顯縮減記憶占用並適用於多種架構。