串聯評分 - Agents Report

深度分析

口述信心作為路由訊號：評估小型語言模型串聯系統在教育測驗中的準確度、成本與延遲

這篇研究檢視在對話式數學測評中，如何利用小型語言模型（LM）口頭報出數值型信心作為是否升級到大型模型的路由依據。研究以人工標註的評分決策為基準，測試三組小型／大型模型配對，發現信心的區分能力（discrimination）是成敗關鍵：表現最好的小型模型在AUROC達0.857，串聯系統在保持近大型模型準確度的同時，能大幅降低成本與延遲。