SALO - Agents Report | 代理人報告

深度分析

大型語言模型仍可能被對抗性攻擊繞過安全機制。本文揭示「拒絕軌跡」是一組分散於上游層與特定位置的時空激活模式，並提出SALO在推論時捕捉此類稀疏信號。SALO保留層與位置資訊，採多尺度投影與最大池化生成檢測向量，訓練僅用一般安全資料。實驗顯示SALO能在多種攻擊下大幅提升檢測率。