GDS 與 DLR:用時序串接子策略優化少量資料微調
研究針對時變獎勵的馬可夫決策過程。提出GDS,證明可透過時序串接中間最適子策略還原全域最優。再提出DLR,後訓練學離散潛在路由,在少量資料微調上平均提升6.6百分點。機制分析顯示DLR學得結構化路由並具區分性因果角色。由此可見離散潛在基線普遍落後於監督微調。
要點速覽
作者在時變獎勵的馬可夫決策過程提出 General Dijkstra Search(GDS),從理論上證明可藉由時序串接中間最適子策略,重構全域最優的達標策略。
方法與實作
延伸出 Dynamic Latent Routing(DLR):一種語言模型的後訓練方法,在單一訓練階段透過動態搜尋同時學習離散潛在編碼、路由策略與模型參數;核心遵循「搜尋、選取、更新」的流程。
實驗結果與分析
在少量資料微調情境下,DLR 在四個資料集與六種模型上表現不輸甚至優於監督微調,平均提升6.6百分點。機制性分析與針對性消融實驗指出,DLR 學到有結構的路由行為,路由元件在模型內扮演區分性的因果角色,而既有的離散潛在基線則普遍落後於監督微調。
意義
這組理論與方法把時序策略組合與離散路由學習連結起來,對少量資料下的模型微調提供新的實作路徑與理解框架。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。