完整性評估 - Agents Report

深度分析

PEB 基準：量化授權受限證據對企業代理式人工智慧結果完整性的影響

代理式人工智慧進入授權分隔企業流程後，系統常僅能看到部分證據。Partial-Evidence-Bench用合成語料、ACL分割與完整性oracles來衡量授權視角下的回答完整性，並獨立評估回答正確、完整性感知與缺口回報。結果指出靜默過濾在多場景呈現災難性不安全行為，明確阻斷與結構化回報則能降低風險。

PEB 基準：量化授權受限證據對企業代理式人工智慧結果完整性的影響

以大型語言模型評估醫療回應完整性：方法、失敗模式與臨床限制