深度分析
機率標籤排序校準框架:全序、子序與 Top‑k 層級的理論與實驗分析
本研究針對機率標籤排序提出校準概念,建立全排序、子排序與前k排序的層級定義,證明全排序校準涵蓋其他但子排序與前k校準不可相互推導,實驗顯示現有模型校準度不足且子排序與前k指標差異明顯,於RLHF獎勵模型中校準度與準確度高度相關,提示校準是超越top‑1準確度的重要品質指標。
深度分析
本研究針對機率標籤排序提出校準概念,建立全排序、子排序與前k排序的層級定義,證明全排序校準涵蓋其他但子排序與前k校準不可相互推導,實驗顯示現有模型校準度不足且子排序與前k指標差異明顯,於RLHF獎勵模型中校準度與準確度高度相關,提示校準是超越top‑1準確度的重要品質指標。
深度分析
本研究在 Kalai & Vempala 的機率框架上,提出「innovation(創新)」作為衡量模型產生訓練資料外輸出傾向的簡單指標。作者證明創新既由校準條件與缺失質量所蘊含,亦能反向近乎刻畫幻覺現象;換言之,創新與幻覺在該框架下幾乎等價。
速報
研究提出「元認知探針」,用五項行為診斷拆解大型語言模型的信心與正確性關係:包含校準、認知警覺、知識邊界、校準範圍與推理鏈驗證。對八款前沿模型與六十九名人類受測者比較,揭露像Gemini 2.5 Flash出現顯著跨任務不一致。工具為探索性,程式碼與資料已公開。