代理人評測 - Agents Report

深度分析

面對使用者模糊查詢與多輪互動需求，VibeSearchBench提出以角色驅動的逐步揭露與無架構知識圖評估。它強調雙向收斂與多回合主動釐清，實驗顯示前沿模型在真實代理環境下F1僅約三成，反映現有架構不足。研究同時指出挑戰包括語境溢出、意圖誘導不足與結構化輸出匱乏。