深度分析 FactoryBench 基準:用多變數時序資料測量工業機器人之因果推理與工程決策能力 研究聚焦工業機器人時序資料以評估機器理解能力。本文建立FactoryBench與FactoryWave,使用分層問答檢驗狀態、干預、反事實與決策四層因果推理。零樣本評估顯示主流大型模型在結構化解析未超過50%、決策層低於18%,揭示語言模型直接讀取工業訊號的明顯不足並指向工具化代理的需求。