identification - Agents Report

深度分析

CausalReasoningBenchmark 從實證論文與教科書中匯整出 173 條查詢與 138 個真實資料集，要求系統為每一題同時輸出結構化的識別規格（identification）與點估計及其標準誤，並對兩者分開評分。此設計把研究設計的概念性判斷和數值執行分離，能精確診斷模型失敗來源。