治理閘門 - Agents Report

深度分析

在以規則為主的內容治理場景，單以人類標註一致性（agreement）評估模型會產生系統性偏誤：合法且有理據的多元決策被當成錯誤，研究稱之為「一致性陷阱」。本文提出可辯護性框架，包括可辯護性指標（DI）、模糊度指標（AI），以及可在推論時零額外成本抽取的機率可辯護訊號（PDS）。