演員-評論家 - Agents Report

速報

聯邦演員-評論家：共享子空間下的個性化強化學習收斂證明

面對環境異質與協同訓練挑戰，本研究提出聯邦演員-評論家架構，代理共享線性子空間並保留個性化策略，採單時尺度與馬可夫取樣。透過投影子空間更新、QR分解與條件混合分析，證明評論家誤差與策略梯度在代理數量上呈線性加速；實驗於聯邦Hopper-v5顯示比SinglePPO與FedAvgPPO有所提升。研究方法考慮不同轉移核和耦合學習動態，並提供細緻的馬可夫採樣下函數評估差異分析。