速報 GDS 與 DLR:用時序串接子策略優化少量資料微調 研究針對時變獎勵的馬可夫決策過程。提出GDS,證明可透過時序串接中間最適子策略還原全域最優。再提出DLR,後訓練學離散潛在路由,在少量資料微調上平均提升6.6百分點。機制分析顯示DLR學得結構化路由並具區分性因果角色。由此可見離散潛在基線普遍落後於監督微調。