深度分析 Claude Mythos 預覽系統卡:情緒向量與稀疏自編碼器的對齊安全測試 本研究聚焦 Claude Mythos 預覽系統卡,利用情緒向量與稀疏自編碼器特徵分析模型行為。提出兩種假說:情緒向量是功能情緒的因果驅動,或是情境結構的投射。透過在僅報告 SAE 的策略隱蔽情境加入情緒探測,驗證哪個假說成立,影響未來危險行為的情緒監控效能。
深度分析 小型語言模型情緒向量共享的幾何結構與行為差異深度比較 研究探討小型語言模型情緒向量幾何,抽取21種情緒於六種架構1‑8B模型,發現成熟模型情緒幾何高度相似,RLHF僅重塑未成熟模型,方法層級影響需分層解讀。