速報 聯邦演員-評論家:共享子空間下的個性化強化學習收斂證明 面對環境異質與協同訓練挑戰,本研究提出聯邦演員-評論家架構,代理共享線性子空間並保留個性化策略,採單時尺度與馬可夫取樣。透過投影子空間更新、QR分解與條件混合分析,證明評論家誤差與策略梯度在代理數量上呈線性加速;實驗於聯邦Hopper-v5顯示比SinglePPO與FedAvgPPO有所提升。研究方法考慮不同轉移核和耦合學習動態,並提供細緻的馬可夫採樣下函數評估差異分析。