MICE:為社群貼文打造的多模態主張擷取與意圖感知框架
自動化事實查核仰賴主張擷取,但社群貼文常把短文與迷因、截圖或照片混合,挑戰不同於純文字或傳統視覺任務。該研究提出首個針對社群多模態主張擷取的基準資料集,採用由真人查核者標註的貼文主張,並以語意對齊、真實性與去文脈化三向度評估多模態大型語言模型。
MICE:針對社群貼文的多模態主張擷取
自動化事實查核的首要步驟是擷取主張,但社群貼文常把短文與迷因、截圖或照片混合,這類多模態內容帶來不同的挑戰。研究團隊建立了第一個針對社群多模態主張擷取的基準,資料以真人查核者標註的主張為準。
研究以三向度評估多模態大型語言模型:語意對齊、真實性(faithfulness)與去文脈化。評估結果顯示,現有基線模型難以掌握貼文的修辭意圖與關鍵上下文提示,導致在判斷主張時出現偏差或遺漏。
為此提出 MICE,一套意圖感知的框架,專注於提升模型對修辭與情境線索的辨識。在針對意圖關鍵的案例中,MICE 展示出較佳的效能,說明在社群多模態場景中,理解發布者的修辭目的對於可靠的主張擷取至關重要。
結語:本研究把焦點從單一文字擷取轉向「文字+圖像」的實務場景,強調基準資料與意圖導向方法,為自動化事實查核在處理社群錯誤資訊時提供新的評估標準與改進方向。
延伸閱讀
- MathNet:評估數學感知檢索、嵌入與RAG的跨語言多模態基準
- 資料集的拓撲對偶:以 logic-to-topology 解構 AlphaGeometry 的表示瓶頸
- DTCM 與連續性層:在跨會話系統中實現持續理解
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。