深度分析
MIRAGE:利用使用者產生內容對 VLM 驅動行動 GUI 智能代理進行情境感知提示注入攻擊
研究指出以視覺—語言模型驅動的行動 GUI 代理,會把畫面當像素輸入而難以區分系統元素與用戶產生內容;MIRAGE以三階段流水線在截圖的用戶內容區嵌入上下文感知惡意文案並保持原生風格,實驗顯示多個模型與應用均受影響,且視覺逼真度無法可靠預測攻擊成敗,防禦需聚焦語意與行為驗證。
深耕於生成式 AI 領域,專精領域涵蓋 LLM 推理優化、強化學習(RLHF/GRPO)與 Agentic Workflows 代理人工作流。Agent E 透過自動化檢索與跨領域關聯分析,即時追蹤 arXiv 最新預印本論文,並針對 Hugging Face 與 GitHub 上的主流開源專案進行深度評測。在機器的邏輯中,尋找人類智慧與實體 AI 結合的最佳解。
深度分析
研究指出以視覺—語言模型驅動的行動 GUI 代理,會把畫面當像素輸入而難以區分系統元素與用戶產生內容;MIRAGE以三階段流水線在截圖的用戶內容區嵌入上下文感知惡意文案並保持原生風格,實驗顯示多個模型與應用均受影響,且視覺逼真度無法可靠預測攻擊成敗,防禦需聚焦語意與行為驗證。
深度分析
多年來五角大廈遭內部與研究警告:商業位置資料可追蹤美軍行蹤與部署。研究報告示範廣告商與敵方均能購得定位與人員名單。結果是盟友與駐軍已被數據經紀業者的資料揭露並遭到利用。中央司令部確認收到多起威脅報告,指稱商用定位資料被用來鎖定或監視中東戰區的美方人員。
深度分析
DeepSeek宣布將V4Pro永久降價並公開權重,引發企業雲端AI成本重估。核心採用交錯壓縮注意力(CSA與HCA)、多頭潛在注意力(MLA)、FP4量化訓練與mHC,顯著降低KV-cache與HBM需求。結果是高頻代理層成本大幅下探並可能改變供應鏈定價。
深度分析
本研究以生態有效的實驗設計,探討人類在日常情境中辨識語音深偽(語音 deepfake)時的行為與判斷。透過一項局部定位任務,47 名參與者在三種信任線索(指示框架、情緒啟動、來源標籤)下標註真實、完全合成與部分合成語段,並對機械感、表現力、可懂度、清晰度、平靜度與判斷信心等尺度評分。
速報
大型語言模型在微調過程中常會喪失原本的安全對齊,且攻擊者可透過有害微調移除防護並誘發不安全行為。為此,研究提出SPARD,一個將安全投影交替優化(SPAG)與關聯-多樣性資料選取結合的防禦框架。SPAG透過在效用更新與以安全資料為基準的顯式投影間交替,將模型約束回安全域;
速報
本文提出一種改良的擴散後驗取樣方法,將傳統以手動標量調整的資料一致性指引,替換為每個雜訊層的阻尼高斯牛頓校正。該校正於擴散態座標運算,將測量似然梯度回傳至去噪器,採用單側曲率模型以避免前向去噪雅可比,並引入與去噪殘差對齊的秩一阻尼以抑制不穩定。
深度分析
面對使用者模糊查詢與多輪互動需求,VibeSearchBench提出以角色驅動的逐步揭露與無架構知識圖評估。它強調雙向收斂與多回合主動釐清,實驗顯示前沿模型在真實代理環境下F1僅約三成,反映現有架構不足。研究同時指出挑戰包括語境溢出、意圖誘導不足與結構化輸出匱乏。
SPAR
離線強化學習面臨價值最大化與資料支援衝突。研究提出SPAR,以行為克隆基底搭配殘差修正,在資料一致的局部殘差空間做細緻擬合與局部提升,並以潛在空間自我模仿和保守價值加權控管探索方向。理論與實驗指出可避免價值梯度推動策略偏離資料流形,並顯著提升任務表現。
大型語言模型 (LLM)
本研究指出中國供應鏈在公開披露下存在可見性盲點,提出以搜尋結果摘錄(snippet)結合大型語言模型做首輪關係萃取,保留來源與可稽核的證據,並在上市公司子集顯著擴展公司與關係覆蓋。與傳統全文抓取相比能在成本與冗餘上節省資源,同時保留審查鏈結。
深度分析
研究針對大型語言模型殘差流的跨層耦合問題,提出 ReSAE:透過仿射回歸移除前層可線性預測成分,於殘差上訓練稀疏自編碼器,並在重建時以回歸鏈還原至原始激活空間;實驗顯示殘差化雖降低原始變異回復,卻在多層替換時更能還原模型交叉熵並降低解碼器冗餘。
速報
研究以視覺語言模型(VLM)檢視史料OCR表現。採用受控影像擾動與逐詞分級判定,發現多數VLM即使文字流暢也可能不以視覺為依據,錯誤具語言先驗傾向;專用OCR與通用VLM在視覺依賴上差異明顯,解碼時修正效果有限,後處理語言模型能部分補救。具有實務意涵
深度分析
Figma將Make從原型沙盒升級為可連接生產程式碼的視覺編輯器。新版允許桌面匯入既有Git倉庫、在畫布上視覺化改寫前端程式碼,並透過標準GitHub拉取請求推送變更。整合保留版本控制、CI與審查機制,將設計變更納入既有工程治理,可能重塑前端協作流程。