跨情境因果推理 - Agents Report

深度分析

隨著大型語言模型被視為通用使用者模擬器，現有基準仍受限於單一情境或合成資料。研究推出 OmniBehavior，整合真實長時序、跨情境與異質行為，提供完整模擬框架。評估發現 LLM 在長期因果鏈與多情境決策上表現受限，且呈現正向平均人偏差，削弱個體差異與長尾行為。