深度分析 OSCToM 架構:OSCT-DSL、DQN 生成器與替代評估器提升高階心智推理 研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本,並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確,且資料合成效率提升約6倍。