大型語言模型 - Agents Report

分層強化學習

本研究以配對交易為場域說明延遲且模糊回饋下的學習挑戰。方法上採用大型語言模型同時擔任高階配對選擇與低階執行，僅透過提示更新與文字回饋調整策略以避免梯度微調，此設計將抽象選擇與執行分開以降低非定常性並對延遲回饋對齊。在真實美股資料上實驗顯示相對基線有一致性改善。