深度分析 CausalReasoningBenchmark:分解識別(identification)與估計(estimation)的因果推論基準 CausalReasoningBenchmark 從實證論文與教科書中匯整出 173 條查詢與 138 個真實資料集,要求系統為每一題同時輸出結構化的識別規格(identification)與點估計及其標準誤,並對兩者分開評分。此設計把研究設計的概念性判斷和數值執行分離,能精確診斷模型失敗來源。