深度分析 口述信心作為路由訊號:評估小型語言模型串聯系統在教育測驗中的準確度、成本與延遲 這篇研究檢視在對話式數學測評中,如何利用小型語言模型(LM)口頭報出數值型信心作為是否升級到大型模型的路由依據。研究以人工標註的評分決策為基準,測試三組小型/大型模型配對,發現信心的區分能力(discrimination)是成敗關鍵:表現最好的小型模型在AUROC達0.857,串聯系統在保持近大型模型準確度的同時,能大幅降低成本與延遲。