個人化人工智慧代理的選擇性問答:多來源記憶與衝突解析基準發布
隨著個人化人工智慧代理採用持久化、多來源記憶,系統必須在互相衝突或不完整的證據間選擇或放棄回答。研究提出一套選擇性問答基準,包含18種題型、8類推理、480個人物設定、4個亂數種子與34,560個實例,並在來源上加入可控扭曲以建立確定性標註。
研究快訊:個人化人工智慧代理面對多來源記憶的選擇性問答基準
新研究指出,個人化人工智慧代理在持久化、多來源記憶下,必須在衝突或不完整證據間做出取捨。為了區分證據缺失與解析器錯誤,作者設計一個控制性選擇性問答基準,專門評估衝突解析與放棄回答的能力。
該基準涵蓋18種題型、8種推理類型、480個人物設定、4個亂數種子,共34,560個實例。資料生成採取可控的來源扭曲與確定性標註,讓不同方法能在相同條件下比較。評測對象包含未讀取來源的基線、讀取單一來源的方法、結構化融合解析器,以及多款前沿大型語言模型。
結果顯示,訓練式融合解析器最高達80.3%整體準確率,而最強提示式大型模型基線為70.0%。啟用放棄回答(abstention)後,該解析器在78.3%覆蓋率下達85.3%選擇性準確率;最佳大型模型在95.4%覆蓋率下達71.0%選擇性準確率。作者同時釋出資料、程式碼、快取模型輸出與資料生成流程,便於社群重現與延伸研究。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。