替代評估器 - Agents Report

深度分析

研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本，並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確，且資料合成效率提升約6倍。