深度分析 lm_head 奇異值分解(SVD):無推論下的 LLM 詞彙子空間稽核方法 本文以lm_head權重做奇異值分解(SVD),提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集,揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在,建議將該分析納入預發布安全稽核。