early-exit - Agents Report | 代理人報告

深度分析

LEAP：在蒸餾訓練中導入早停感知以恢復嵌入模型延遲優勢

傳統層對齊蒸餾雖能壓縮模型，卻會抹平中間層的表徵變化，導致收斂式早停（early exit）在實務部署下無法帶來速度優勢。論文提出 LEAP（Layer-wise Exit-Aware Pretraining），在蒸餾流程中加入單一的層級退出約束，無須改動架構，就能讓中間層更早接近最終表示並回復早停效益。