深度分析 結合步驟同儕優勢與多樣性探索獎勵的 SPADER 框架在多答案問答中的效能提升 隨著大型語言模型被廣泛用於工具增強代理,對於需要多答案的資訊查詢提出了長程搜尋與探索的挑戰。研究提出 SPADER 框架,結合步驟同儕優勢的無評論員信用分配與多樣性導向的探索獎勵,促使代理持續發掘長尾實體。實驗顯示在四大多答案 QA 基準上,召回率與 F1 均優於既有方法。