深度分析 MERRIN 基準測試:噪聲網路環境下的多模態證據檢索與推理分析 隨著搜尋查詢日益多步且結果多模態且雜訊,研究者推出 MERRIN 基準測試,使用自然語言查詢、加入影片與音訊等未充分探討的模態,要求在噪聲網路中檢索並推理。測試十種模型在三種搜尋設定下,平均正確率 22.3%,最高 40.1%。結果顯示目前代理人在多模態資訊選擇與推理上仍有顯著挑戰。