深度分析
Sem-ECE:以語義抽樣評估開放式問答模型的校準
研究聚焦開放式問答中可信度評估,提出語義抽樣框架Sem-ECE;透過多次生成並以LLM裁判將回答歸入語義類別,再以頻率估算置信度並定義Sem1與Sem2兩種估計器;實驗顯示Sem-ECE在多數模型與基準上優於口述置信度,且Sem2在困難題目上減少校準誤差。
深度分析
研究聚焦開放式問答中可信度評估,提出語義抽樣框架Sem-ECE;透過多次生成並以LLM裁判將回答歸入語義類別,再以頻率估算置信度並定義Sem1與Sem2兩種估計器;實驗顯示Sem-ECE在多數模型與基準上優於口述置信度,且Sem2在困難題目上減少校準誤差。
深度分析
開放式知識圖譜問答因圖譜不完整而受限。GLOW 透過 GNN 預測候選答案,並以結構化提示驅動 LLM 推理,實現符號與語意雙向結合。實驗顯示其在新基準上提升最高 53.3%,顯示開放世界 QA 的可行新方向。