神經檢索模型隱含文件相關性先驗的揭露
研究針對受監督的雙編碼檢索模型是否在訓練過程中學會了與查詢無關的文件相關性先驗進行了實驗。透過在凍結的文件向量上訓練簡易分類器,評估三種最先進的檢索模型於多項資訊檢索基準測試。結果顯示,監督式神經檢索器會編碼可遷移的相關性先驗,導致「可找性」差距:先驗較低的文件即使相關也較難被檢索。
受監督的神經檢索模型(bi‑encoder)通常以標註的查詢‑文件配對學習相關性,但標註流程只挑選部分文件,可能偏好特定類型。研究團隊檢驗這類模型是否在訓練時隱含了一種與查詢無關的文件層級相關性先驗。
實驗方法
研究者先凍結已訓練好的文件嵌入,於此基礎上訓練簡易分類器以預測文件的「先驗」分數,然後在多個資訊檢索基準(包括 MSMARCO、TREC)上測試三種最先進的神經檢索器。
主要發現
結果顯示,監督式神經檢索器確實編碼了可遷移的相關性先驗,且在不同模型間保持一致。先驗較低的文件,即使在人工標註上屬於相關,仍在檢索結果中被系統性排在較後,形成所謂的「可找性」差距。
相較之下,傳統的 BM25 雖有類似現象,但強度較弱且不穩定。即使在控制了文件匹配度的比較中,先驗效應仍然顯著。
偏好來源分析
透過大型語言模型產生的說明,研究者發現被標註為相關的文件多為主流議題的完整、獨立摘要;而小眾、碎片化或高度技術性的內容常被忽略。檢索模型因此內化了這種偏好,獨立於實際相關性,提升具備上述特徵的文件排名。
此發現揭示了受監督檢索的一個結構性限制:模型不僅學習查詢‑文件相關性,也學會了訓練資料中隱含的文件偏好。
延伸閱讀
- EPC-AW:LLM 多代理系統的規劃認知校準工作流程與實驗結果
- A-LEMS 能耗觀測:EpG 與 OOI 在代理式 AI 編排效率評估上的應用
- 行動端 LLM 能耗實測:量化悖論、MoE 與 Qwen2.5-3B 的折衷
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。