離散潛在 - Agents Report

速報

研究針對時變獎勵的馬可夫決策過程。提出GDS，證明可透過時序串接中間最適子策略還原全域最優。再提出DLR，後訓練學離散潛在路由，在少量資料微調上平均提升6.6百分點。機制分析顯示DLR學得結構化路由並具區分性因果角色。由此可見離散潛在基線普遍落後於監督微調。