Convergent–Divergent Routing (CDR) - Agents Report

深度分析

大型語言模型在道德判斷上常有情境差異。研究提出 CDR，定位 transformer 內的倫理分岔點並封鎖非目標路徑；再用改良 CSP 提取對立方向，配合 Dual Logit Calibration 以使用者權重精準校準偏好。實驗顯示可穩定改變模型倫理取向且保留多數能力。