深度分析
FactoryBench 基準:用多變數時序資料測量工業機器人之因果推理與工程決策能力
研究聚焦工業機器人時序資料以評估機器理解能力。本文建立FactoryBench與FactoryWave,使用分層問答檢驗狀態、干預、反事實與決策四層因果推理。零樣本評估顯示主流大型模型在結構化解析未超過50%、決策層低於18%,揭示語言模型直接讀取工業訊號的明顯不足並指向工具化代理的需求。
深度分析
研究聚焦工業機器人時序資料以評估機器理解能力。本文建立FactoryBench與FactoryWave,使用分層問答檢驗狀態、干預、反事實與決策四層因果推理。零樣本評估顯示主流大型模型在結構化解析未超過50%、決策層低於18%,揭示語言模型直接讀取工業訊號的明顯不足並指向工具化代理的需求。
深度分析
Sahm提出首套針對阿拉伯語金融與伊斯蘭法(Shari’ah)合規推理的綜合基準,收錄七大任務、14,380筆專家驗證樣本,來源涵蓋AAOIFI規範、法學裁決與企業揭露。研究比較20款大型語言模型,發現語言流暢性不等於領域推理能力:在選擇題評估中表現優異的模型,在開放式生成任務與因果推理上顯著下滑。
多模態大型語言模型
隨著海上視覺應用需求增加,缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準,採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境,涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足,突顯海事 AI 的挑戰與未來方向。