深度分析 TimeSeriesExamAgent:自動化生成跨領域時間序列推理基準測試 大型語言模型在時間序列任務的真實理解仍未明朗。研究者開發 TimeSeriesExam 與 TimeSeriesExamAgent,前者利用合成序列測試五項推理能力,後者自動從醫療、金融、氣象等實務資料產生基準。實驗證明自動化基準多樣性可比人工設計,然而模型在抽象與領域特化推理上仍受限,顯示時間序列理解仍具挑戰。