深度分析 lm_head 奇異值分解(SVD):無推論下的 LLM 詞彙子空間稽核方法 本文以lm_head權重做奇異值分解(SVD),提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集,揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在,建議將該分析納入預發布安全稽核。
深度分析 MSRS:以 SVD 引導的多子空間表示對齊方法 面對大型語言模型在真實應用中常見的偏差與屬性衝突,研究提出 MSRS(Multi-Subspace Representation Steering),以子空間表示微調方式同時調控多項屬性。