SALLIE SALLIE 框架:利用機制解釋性與內部激活值偵測多模態 AI 越獄與提示詞注入 研究人員開發出 SALLIE 框架,能同時對抗文本與視覺越獄及提示詞注入。該技術基於機制解釋性,透過偵測模型內部激活值來識別惡意請求,無需修改模型架構即可在多模態模型中實現高效防禦,在多個開源模型測試中表現優於傳統防禦方案。