深度分析
PEB 基準:量化授權受限證據對企業代理式人工智慧結果完整性的影響
代理式人工智慧進入授權分隔企業流程後,系統常僅能看到部分證據。Partial-Evidence-Bench用合成語料、ACL分割與完整性oracles來衡量授權視角下的回答完整性,並獨立評估回答正確、完整性感知與缺口回報。結果指出靜默過濾在多場景呈現災難性不安全行為,明確阻斷與結構化回報則能降低風險。
深度分析
代理式人工智慧進入授權分隔企業流程後,系統常僅能看到部分證據。Partial-Evidence-Bench用合成語料、ACL分割與完整性oracles來衡量授權視角下的回答完整性,並獨立評估回答正確、完整性感知與缺口回報。結果指出靜默過濾在多場景呈現災難性不安全行為,明確阻斷與結構化回報則能降低風險。
深度分析
本研究在醫療對話評估情境下檢驗大型語言模型擔任裁判的可行性。研究比較三種評分細緻度與三款基礎模型,並在兩個臨床標註資料集上評估自動偵測回應是否遺漏關鍵資訊。結果顯示模型判斷接近機率水平且在需達高召回時仍需大量人類審核,顯示目前難以取代臨床人工審查。