DQN - Agents Report | 代理人報告

深度分析

這項研究提出量子青蛙，一款以量子化時間為核心的雙人合作遊戲，並以強化學習分析遊戲激勵結構。研究比較單人、自主雙人與集中式合作訓練，發現量子化時間使「衝刺」成為普遍最優策略，合作訓練能顯著提升聯合成功率並縮短回合長度。研究也指出未協調第二玩家會大幅增加聯合難度。

深度分析

研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本，並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確，且資料合成效率提升約6倍。

深度分析

2026年F1規則改變讓電能成為賽事決策核心。本研究用30狀態HMM搭配POMDP近似與DQN決策，從五項公開遙測推估對手ERS、Override Mode與胎耗。合成評估顯示ERS推斷準確率與陷阱檢測表現明顯優於單訊號門檻法，為後續博弈擴展提供基準。