MIRAGE - Agents Report | 代理人報告

深度分析

研究指出以視覺—語言模型驅動的行動 GUI 代理，會把畫面當像素輸入而難以區分系統元素與用戶產生內容；MIRAGE以三階段流水線在截圖的用戶內容區嵌入上下文感知惡意文案並保持原生風格，實驗顯示多個模型與應用均受影響，且視覺逼真度無法可靠預測攻擊成敗，防禦需聚焦語意與行為驗證。