深度分析 Sem-ECE:以語義抽樣評估開放式問答模型的校準 研究聚焦開放式問答中可信度評估,提出語義抽樣框架Sem-ECE;透過多次生成並以LLM裁判將回答歸入語義類別,再以頻率估算置信度並定義Sem1與Sem2兩種估計器;實驗顯示Sem-ECE在多數模型與基準上優於口述置信度,且Sem2在困難題目上減少校準誤差。