深度分析
OCCAM:在黑盒視覺模型下以多模態語意與輸入級干預實現開放集合因果概念解釋與本體歸納
面對僅能以查詢輸入輸出的黑盒視覺分類器,OCCAM提出一套開放集合的因果概念解釋與本體歸納流程。系統先以多模態大模型提出影像內的可命名概念,透過文字驅動的分割定位,再以物件級的輸入干預(移除並以修復模型重建)觀察類別信心變化,估計每個概念的因果貢獻。
深度分析
面對僅能以查詢輸入輸出的黑盒視覺分類器,OCCAM提出一套開放集合的因果概念解釋與本體歸納流程。系統先以多模態大模型提出影像內的可命名概念,透過文字驅動的分割定位,再以物件級的輸入干預(移除並以修復模型重建)觀察類別信心變化,估計每個概念的因果貢獻。
速報
手語研究受大型語言模型推動而進展,但模型理解手語的固有能力仍不足。本研究提出CNSL-bench,一個以國家標準手語詞典為基礎、包含文字說明、示意圖與手語影片的中文多模態基準庫。實驗評估多款多模態大模型,結果顯示現有模型與人類表現仍有顯著差距,且不同輸入模態與手勢形式呈系統性弱勢。
深度分析
多模態 AI 幻覺並非全部相同,有些顯而易見,有些則極具誤導性。最新研究提出一種激活空間干預法,將幻覺分為「明顯」與「隱蔽」兩類,並透過獨立探針實現精細化控制,讓開發者能根據應用場景調整 AI 內容的可驗證程度,提升系統安全性。