校準 - Agents Report | 代理人報告

深度分析

本研究針對機率標籤排序提出校準概念，建立全排序、子排序與前k排序的層級定義，證明全排序校準涵蓋其他但子排序與前k校準不可相互推導，實驗顯示現有模型校準度不足且子排序與前k指標差異明顯，於RLHF獎勵模型中校準度與準確度高度相關，提示校準是超越top‑1準確度的重要品質指標。

深度分析

本研究在 Kalai & Vempala 的機率框架上，提出「innovation（創新）」作為衡量模型產生訓練資料外輸出傾向的簡單指標。作者證明創新既由校準條件與缺失質量所蘊含，亦能反向近乎刻畫幻覺現象；換言之，創新與幻覺在該框架下幾乎等價。

速報

研究提出「元認知探針」，用五項行為診斷拆解大型語言模型的信心與正確性關係：包含校準、認知警覺、知識邊界、校準範圍與推理鏈驗證。對八款前沿模型與六十九名人類受測者比較，揭露像Gemini 2.5 Flash出現顯著跨任務不一致。工具為探索性，程式碼與資料已公開。