深度分析 VibeSearchBench:代理人在多回合 VibeSearch 任務的知識圖構建與評測 面對使用者模糊查詢與多輪互動需求,VibeSearchBench提出以角色驅動的逐步揭露與無架構知識圖評估。它強調雙向收斂與多回合主動釐清,實驗顯示前沿模型在真實代理環境下F1僅約三成,反映現有架構不足。研究同時指出挑戰包括語境溢出、意圖誘導不足與結構化輸出匱乏。