SAE - Agents Report | 代理人報告

深度分析

面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。

深度分析

研究檢視語言模型對語域差異的隱性偏見，使用意圖等價的SAE與AAVE推文並以12項特質、Likert量表評分，採絕對與對照兩種提示法比較模型反應。結果顯示並列比較會放大對AAVE的負向刻板印象，且明示語域反而加劇偏見，呼籲更嚴謹的評估與緩解策略。

深度分析

本研究針對 Llama-3.3-70B-Instruct，利用稀疏自編碼器（SAE）進行特徵導向（feature steering），放大黑暗三角人格特質（馬基雅維利主義、巨嬌傲與精神病傾向），並以五項心理學工具橫向驗證行為改變。