深度分析 QuantSightBench:以預測區間評估 LLM 的數值預測與校準 QuantSightBench 提出以預測區間(prediction intervals)作為大型語言模型(LLM)數值預測的評估介面,從零-shot、背景提示到具檢索能力的 agentic 三種設定進行比較。研究強調預測區間能揭露尺度意識、不同置信水準間的一致性與校準性,比單一點估計更能測試模型對不確定性的表述。