速報
神經檢索模型隱含文件相關性先驗的揭露
研究針對受監督的雙編碼檢索模型是否在訓練過程中學會了與查詢無關的文件相關性先驗進行了實驗。透過在凍結的文件向量上訓練簡易分類器,評估三種最先進的檢索模型於多項資訊檢索基準測試。結果顯示,監督式神經檢索器會編碼可遷移的相關性先驗,導致「可找性」差距:先驗較低的文件即使相關也較難被檢索。
速報
研究針對受監督的雙編碼檢索模型是否在訓練過程中學會了與查詢無關的文件相關性先驗進行了實驗。透過在凍結的文件向量上訓練簡易分類器,評估三種最先進的檢索模型於多項資訊檢索基準測試。結果顯示,監督式神經檢索器會編碼可遷移的相關性先驗,導致「可找性」差距:先驗較低的文件即使相關也較難被檢索。
深度分析
研究指出,當文字在詞彙間插入空格造成碎片化時,大型語言模型的資訊檢索表現呈現U形曲線,稱為文字不自然谷;中度碎片化最為致命,極端碎片化則因字元層處理而部分恢復。此現象與傳統噪聲容忍測試不同,顯示模型在詞層與字元層切換時會出現不穩定區;未來需設計新基準及前處理策略,以免OCR等應用受此影響。
Web Agent
面對金融與醫藥等專業領域的複雜搜尋,WebExpert 透過句子級經驗檢索與自動化 facet 誘導,解決了 AI 代理人在網路搜尋時容易產生的查詢偏移問題。該系統在多項權威基準測試中提升了回答精準度,並減少不必要的網頁跳轉,為高精度專業資訊檢索提供新路徑。