深度分析
長時脈絡與任務式提示如何改善 MLLM(視訊+聲音)與 fMRI 腦活動對齊
研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較,並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊,而單模視訊模型未見同等收益。
深度分析
研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較,並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊,而單模視訊模型未見同等收益。
深度分析
面對高解析且元件密集的截圖,GUI代理常被干擾而難以定位。DRS-GUI以訓練免疫的動態區域搜尋補強MLLM,透過UIPerceptor與聚焦、轉移、擴散三種感知動作,以及MCTS規劃與區域品質獎勵,逐步生成並選出最相關視窗。實驗在ScreenSpot-Pro上顯著提升定位表現。
深度分析
行動 GUI 代理在執行任務時常忽視使用者隱私需求。本研究提出 TIPO,利用偏好強度加權與填充門控,針對隱私導向的執行軌跡進行優化。實驗證明在多項 GUI 任務中,TIPO 同時提升任務成功率與隱私合規性,顯示其在個人化 AI 代理領域的潛在價值。
深度分析
多模態 AI 幻覺並非全部相同,有些顯而易見,有些則極具誤導性。最新研究提出一種激活空間干預法,將幻覺分為「明顯」與「隱蔽」兩類,並透過獨立探針實現精細化控制,讓開發者能根據應用場景調整 AI 內容的可驗證程度,提升系統安全性。