do 運算子 - Agents Report

深度分析

本研究針對大型語言模型在全球部署下的安全與公平問題提出因果稽核框架。論文使用機率圖模型與Pearl的do操作消除議題毒性干擾，以反門徑校正分離情境毒性，量化介入後的人口群體拒絕率。實驗涵蓋七款指令型模型與ToxiGen及BOLD，結果顯示觀察性偏差常被高估。