相對策略優化

端對端自駕

端對端自駕依賴模仿學習受示範限制。PaIR-Drive 以平行支路同時進行模仿與強化學習，避免策略漂移。實驗顯示其在 NAVSIM 基準上達到 91.2 PDMS 與 87.9 EPDMS，表現優於傳統微調。