lm_head SVD - Agents Report

深度分析

本文以lm_head權重做奇異值分解（SVD），提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集，揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在，建議將該分析納入預發布安全稽核。