激活導引 - Agents Report

深度分析

研究以配對房貸範例與激活導引檢視指令調校大型語言模型的隱性族群表徵是否具因果影響。研究同時測試跨層干預、激活導引與參數效率微調的可被利用性。結果發現模型輸出表面公平但內部表徵被放大且可操控，且存在方向性不對稱，顯示僅看輸出不足以保障金融決策公正。