分層強化學習 Moira:以大型語言模型驅動的分層強化學習在配對交易上的應用 本研究以配對交易為場域說明延遲且模糊回饋下的學習挑戰。方法上採用大型語言模型同時擔任高階配對選擇與低階執行,僅透過提示更新與文字回饋調整策略以避免梯度微調,此設計將抽象選擇與執行分開以降低非定常性並對延遲回饋對齊。在真實美股資料上實驗顯示相對基線有一致性改善。