深度分析
量子化時間如何改變多代理強化學習:以 DQN、IDQN 與 MAPPO 在《Quantum Frog》的實驗分析
這項研究提出量子青蛙,一款以量子化時間為核心的雙人合作遊戲,並以強化學習分析遊戲激勵結構。研究比較單人、自主雙人與集中式合作訓練,發現量子化時間使「衝刺」成為普遍最優策略,合作訓練能顯著提升聯合成功率並縮短回合長度。研究也指出未協調第二玩家會大幅增加聯合難度。
深度分析
這項研究提出量子青蛙,一款以量子化時間為核心的雙人合作遊戲,並以強化學習分析遊戲激勵結構。研究比較單人、自主雙人與集中式合作訓練,發現量子化時間使「衝刺」成為普遍最優策略,合作訓練能顯著提升聯合成功率並縮短回合長度。研究也指出未協調第二玩家會大幅增加聯合難度。
深度分析
研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本,並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確,且資料合成效率提升約6倍。
深度分析
2026年F1規則改變讓電能成為賽事決策核心。本研究用30狀態HMM搭配POMDP近似與DQN決策,從五項公開遙測推估對手ERS、Override Mode與胎耗。合成評估顯示ERS推斷準確率與陷阱檢測表現明顯優於單訊號門檻法,為後續博弈擴展提供基準。