深度分析 LEAP:在蒸餾訓練中導入早停感知以恢復嵌入模型延遲優勢 傳統層對齊蒸餾雖能壓縮模型,卻會抹平中間層的表徵變化,導致收斂式早停(early exit)在實務部署下無法帶來速度優勢。論文提出 LEAP(Layer-wise Exit-Aware Pretraining),在蒸餾流程中加入單一的層級退出約束,無須改動架構,就能讓中間層更早接近最終表示並回復早停效益。