深度分析 OmniBehavior:首個以真實資料建構的跨情境長時序使用者行為模擬基準 隨著大型語言模型被視為通用使用者模擬器,現有基準仍受限於單一情境或合成資料。研究推出 OmniBehavior,整合真實長時序、跨情境與異質行為,提供完整模擬框架。評估發現 LLM 在長期因果鏈與多情境決策上表現受限,且呈現正向平均人偏差,削弱個體差異與長尾行為。