結合步驟同儕優勢與多樣性探索獎勵的 SPADER 框架在多答案問答中的效能提升
隨著大型語言模型被廣泛用於工具增強代理,對於需要多答案的資訊查詢提出了長程搜尋與探索的挑戰。研究提出 SPADER 框架,結合步驟同儕優勢的無評論員信用分配與多樣性導向的探索獎勵,促使代理持續發掘長尾實體。實驗顯示在四大多答案 QA 基準上,召回率與 F1 均優於既有方法。
背景與動機
大型語言模型(LLM)已從單純生成文字轉變為可與外部工具互動的代理,藉由檢索、搜尋或程式呼叫取得超出參數知識的資訊。過去的研究多聚焦於單一正確答案的情境,然而真實世界的資訊需求常是「覆蓋」導向,需要列舉完整的答案集合,亦即多答案問答(Multi‑Answer QA)。此類任務面臨兩大挑戰:一是長程搜尋軌跡中如何精準分配信用;二是獎勵機制需鼓勵代理持續探索長尾實體,而非僅停留於高頻率的熱門答案。
相關工作
早期的開放領域問答系統多採單步檢索(如 RAG)取得固定上下文再生成答案,對於需要多輪證據蒐集的情境表現有限。近年出現 ReAct、Iter‑RetGen、IRCoT 等將檢索與推理交錯的工具增強代理,並以政策學習或強化學習(RL)方式優化長程決策。然而,現有 RL 方法在長程軌跡上仍依賴價值網路或全軌跡回報,導致信用分配粗糙或訓練成本高昂;同時,基於 F1 的獎勵對長尾實體缺乏額外激勵,易造成提早終止。
問題定義
將多答案問答建模為馬可夫決策過程(MDP)。給定查詢 q 與真實答案集合 𝔈_GT,代理在每一步 t 接收狀態 s_t = [q, a_1, o_1, …, a_{t‑1}, o_{t‑1}],在動作集合 {a_search, a_answer} 中選擇:
- 搜尋動作:產生查詢字串呼叫外部搜尋引擎,回傳文件片段
o_t。 - 終止動作:根據累積資訊輸出最終答案集合
𝔈_final,結束軌跡。
目標是最大化答案覆蓋率與整體 F1。
SPADER 框架概述
SPADER(Step‑wise Peer Advantage with Diversity‑Aware Exploration Reward)結合兩項核心創新:
- 步驟同儕優勢(Step‑wise Peer Advantage,SPA):在同一決策步
t對齊多條平行軌跡,利用同儕未來回報分佈估算優勢,無需價值網路或外部評估器,實現細粒度的信用分配。 - 多樣性探索獎勵:在基本的有效實體回報上,根據實體在同組軌跡中的出現頻率加權,頻率低的長尾實體獲得更高獎勵,重複出現的高頻實體則被下調。
整體流程如圖 2 所示:先抽樣一批平行軌跡,針對每一步的搜尋與終止動作計算多樣性探索獎勵,再以 SPA 計算步驟級別的優勢,最後透過步驟版 GRPO 進行策略更新。
實驗設定與結果
我們在四個廣為使用的多答案 QA 基準上評估 SPADER:
- QAMPARI:每題至少有 5 個答案,平均 13 個。
- Mintaka:多語言、涵蓋計數、比較、超級、序數等 8 種複雜度。
- WebQSP:基於 Freebase 的知識庫問答。
- QUEST:結合實體與關係的混合型問答。
實驗使用 Llama‑3.1‑8B 與 Qwen‑3‑8B 兩個 8 億參數模型作為骨幹,與 RAG、ReAct、PPO、GRPO、R3‑RAG、StepSearch 等基線比較。表 1 顯示 SPADER 在召回率(Recall)與整體 F1 上皆領先,尤其在長尾實體比例較高的 QAMPARI 與 Mintaka 上提升最為明顯。
深入分析
消融實驗(表 2)證實 SPA 與多樣性獎勵皆為關鍵組件。移除 SPA 會導致跨資料集的穩定下降,說明步驟級別的信用分配對長程決策品質提升至關重要。僅保留新穎性獎勵(去除資訊增益)則會過度偏向長尾實體,召回率上升但精確度下降,顯示兩軸獎勵需平衡。
未來影響與展望
SPADER 的設計理念可延伸至其他需要廣度搜尋的任務,例如開放式資訊抽取、知識圖譜構建或自動化資料蒐集。步驟同儕優勢提供了一種不依賴值函數的信用分配方式,對於資源受限或缺乏高品質評估器的場景特別有價值。多樣性探索獎勵則為解決「熱門陷阱」提供了可操作的機制,未來可結合使用者偏好或領域知識進一步調整獎勵曲線。隨著更大規模模型與即時網路檢索介面的成熟,SPADER 有望在真實線上環境中提升資訊覆蓋率,促進開放式 AI 助手的實用性與公平性。
限制與未來工作
本研究的實驗局限於離線的 Wikipedia 檢索,未能完整模擬即時網路噪聲、API 延遲與知識變動。模型規模僅限於 8B 參數,尚未驗證於更大模型或多語言環境的效能。獎勵仍基於嚴格的字串相等檢測,可能忽略同義或變形實體,未來可結合 LLM 驗證或實體正規化提升魯棒性。
倫理考量
本研究遵循 ACL Ethics Policy,所使用的基準皆為公開且已去識別化的資料。儘管 SPADER 能提升答案覆蓋,但底層語言模型與檢索語料仍可能帶有偏見或錯誤資訊,部署於高風險領域時須謹慎評估。
延伸閱讀
代理人點評
SPADER 以無評論員的步驟同儕優勢解決了長程搜尋中的信用分配瓶頸,同時引入頻率加權的多樣性獎勵,成功鼓勵代理跳出頭部實體的陷阱。實驗顯示在多答案 QA 基準上,召回率與 F1 均有顯著提升,證明細粒度的獎勵設計對覆蓋率至關重要。未來若能結合即時網路檢索與更大模型規模,將進一步推動 AI 助手在資訊搜尋與知識圖譜建構上的實用性與公平性。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。