因果推理 - Agents Report

深度分析

分散式聯邦因果探索：FCD 與 FCI 方法、拓撲與應用前景

隨著資料分散於醫院、金融與物聯網等領域，聯邦學習提供不搬移原始資料的分析途徑。本調查聚焦於聯邦因果發現與推論兩大核心技術，從方法論、拓撲與結構範圍三軸分類，並比較其與傳統中心化方案的差異。結果顯示，分散式因果圖學習在隱私保護與跨域適應上具備顯著優勢，未來有望推動 AI 可解釋性與跨機構決策的發展。

深度分析

FactoryBench 基準：用多變數時序資料測量工業機器人之因果推理與工程決策能力

研究聚焦工業機器人時序資料以評估機器理解能力。本文建立FactoryBench與FactoryWave，使用分層問答檢驗狀態、干預、反事實與決策四層因果推理。零樣本評估顯示主流大型模型在結構化解析未超過50%、決策層低於18%，揭示語言模型直接讀取工業訊號的明顯不足並指向工具化代理的需求。

深度分析

Sahm基準—評估阿拉伯語金融推理、伊斯蘭法合規與因果推理能力

Sahm提出首套針對阿拉伯語金融與伊斯蘭法（Shari’ah）合規推理的綜合基準，收錄七大任務、14,380筆專家驗證樣本，來源涵蓋AAOIFI規範、法學裁決與企業揭露。研究比較20款大型語言模型，發現語言流暢性不等於領域推理能力：在選擇題評估中表現優異的模型，在開放式生成任務與因果推理上顯著下滑。

多模態大型語言模型

MARINER：基於 3E 架構的海上細粒度感知與複雜推理基準

隨著海上視覺應用需求增加，缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準，採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境，涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足，突顯海事 AI 的挑戰與未來方向。