深度分析 Claude Mythos 預覽系統卡:情緒向量與稀疏自編碼器的對齊安全測試 本研究聚焦 Claude Mythos 預覽系統卡,利用情緒向量與稀疏自編碼器特徵分析模型行為。提出兩種假說:情緒向量是功能情緒的因果驅動,或是情境結構的投射。透過在僅報告 SAE 的策略隱蔽情境加入情緒探測,驗證哪個假說成立,影響未來危險行為的情緒監控效能。