深度分析
FAC Synthesis:以Feature Activation Coverage與稀疏自編碼器提升LLM後訓練特徵覆蓋
面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。
深度分析
面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。
深度分析
研究檢視語言模型對語域差異的隱性偏見,使用意圖等價的SAE與AAVE推文並以12項特質、Likert量表評分,採絕對與對照兩種提示法比較模型反應。結果顯示並列比較會放大對AAVE的負向刻板印象,且明示語域反而加劇偏見,呼籲更嚴謹的評估與緩解策略。
深度分析
本研究針對 Llama-3.3-70B-Instruct,利用稀疏自編碼器(SAE)進行特徵導向(feature steering),放大黑暗三角人格特質(馬基雅維利主義、巨嬌傲與精神病傾向),並以五項心理學工具橫向驗證行為改變。