深度分析 稀疏自編碼器(SAE)特徵導向揭示:Llama-3.3-70B 中可分離的反社會機制 本研究針對 Llama-3.3-70B-Instruct,利用稀疏自編碼器(SAE)進行特徵導向(feature steering),放大黑暗三角人格特質(馬基雅維利主義、巨嬌傲與精神病傾向),並以五項心理學工具橫向驗證行為改變。