深度分析 StratRAG 基準:在含干擾候選池下比較 BM25、密集向量與混合檢索 StratRAG 將 HotpotQA 的 distractor 設定重新結構化,針對檢索階段提供一套可重複、可量化的多跳評測基準。資料集包含約2,200個題目,每題配對固定的15篇候選文件(2篇黃金文件、13篇相關干擾文),可直接計算 Recall@k、MRR 與 NDCG 等檢索指標。