深度分析 SALO:以稀疏激活定位拒絕軌跡,結合因果追蹤的 LLM 越獄檢測 大型語言模型仍可能被對抗性攻擊繞過安全機制。本文揭示「拒絕軌跡」是一組分散於上游層與特定位置的時空激活模式,並提出SALO在推論時捕捉此類稀疏信號。SALO保留層與位置資訊,採多尺度投影與最大池化生成檢測向量,訓練僅用一般安全資料。實驗顯示SALO能在多種攻擊下大幅提升檢測率。