評估 - Agents Report | 代理人報告

速報

研究提出「元認知探針」，用五項行為診斷拆解大型語言模型的信心與正確性關係：包含校準、認知警覺、知識邊界、校準範圍與推理鏈驗證。對八款前沿模型與六十九名人類受測者比較，揭露像Gemini 2.5 Flash出現顯著跨任務不一致。工具為探索性，程式碼與資料已公開。