深度分析 CDR、CSP 與 Dual Logit Calibration:在推理時局部校準大型語言模型的倫理傾向 大型語言模型在道德判斷上常有情境差異。研究提出 CDR,定位 transformer 內的倫理分岔點並封鎖非目標路徑;再用改良 CSP 提取對立方向,配合 Dual Logit Calibration 以使用者權重精準校準偏好。實驗顯示可穩定改變模型倫理取向且保留多數能力。