AI 代理人 - Agents Report

深度分析

TimeSeriesExamAgent：自動化生成跨領域時間序列推理基準測試

大型語言模型在時間序列任務的真實理解仍未明朗。研究者開發 TimeSeriesExam 與 TimeSeriesExamAgent，前者利用合成序列測試五項推理能力，後者自動從醫療、金融、氣象等實務資料產生基準。實驗證明自動化基準多樣性可比人工設計，然而模型在抽象與領域特化推理上仍受限，顯示時間序列理解仍具挑戰。