開放式問答

深度分析

研究聚焦開放式問答中可信度評估，提出語義抽樣框架Sem-ECE；透過多次生成並以LLM裁判將回答歸入語義類別，再以頻率估算置信度並定義Sem1與Sem2兩種估計器；實驗顯示Sem-ECE在多數模型與基準上優於口述置信度，且Sem2在困難題目上減少校準誤差。

深度分析

開放式知識圖譜問答因圖譜不完整而受限。GLOW 透過 GNN 預測候選答案，並以結構化提示驅動 LLM 推理，實現符號與語意雙向結合。實驗顯示其在新基準上提升最高 53.3%，顯示開放世界 QA 的可行新方向。