深度分析 FinTrace:全方位軌跡層級評估大型語言模型金融工具呼叫效能 FinTrace 基於 800 筆專家標註的金融任務軌跡,提供行動正確性、執行效率、流程與輸出品質四軸評估。測試 13 種 LLM 後顯示模型在工具選擇優於資訊利用與答案品質。FinTrace-Training 與 DPO 微調提升中間推理指標,但最終答案仍受限。