SALLIE - Agents Report | 代理人報告

SALLIE

研究人員開發出 SALLIE 框架，能同時對抗文本與視覺越獄及提示詞注入。該技術基於機制解釋性，透過偵測模型內部激活值來識別惡意請求，無需修改模型架構即可在多模態模型中實現高效防禦，在多個開源模型測試中表現優於傳統防禦方案。