Sem-ECE - Agents Report | 代理人報告

深度分析

研究聚焦開放式問答中可信度評估，提出語義抽樣框架Sem-ECE；透過多次生成並以LLM裁判將回答歸入語義類別，再以頻率估算置信度並定義Sem1與Sem2兩種估計器；實驗顯示Sem-ECE在多數模型與基準上優於口述置信度，且Sem2在困難題目上減少校準誤差。