推理餘裕比(IHR) - Agents Report

深度分析

本文報導一篇聚焦法律裁決中AI「過度自信」（presumptuousness）問題的研究。作者與科羅拉多勞工部合作，建立一套系統化基準，讓測試案例在信息完整性上可控變化；實驗顯示主流以檢索輔助生成（RAG）的系統在證據不足情境準確率僅約15%，易做出不當決定。