深度分析
StoryTR:以心智理論(ToM)強化影片時序檢索的資料與訓練方法
短篇劇情類短影片壓縮大量社交線索,現有視聽模型能看出表面行動,卻難以推斷角色內在意圖與敘事因果。研究提出 StoryTR 基準與一套 Agentic 資料管線,透過三層 Theory of Mind(意圖解碼、敘事推理、邊界定位)生成具說明性的訓練鏈條,並用於訓練小型 7B 模型。
深度分析
短篇劇情類短影片壓縮大量社交線索,現有視聽模型能看出表面行動,卻難以推斷角色內在意圖與敘事因果。研究提出 StoryTR 基準與一套 Agentic 資料管線,透過三層 Theory of Mind(意圖解碼、敘事推理、邊界定位)生成具說明性的訓練鏈條,並用於訓練小型 7B 模型。
深度分析
隨著搜尋查詢日益多步且結果多模態且雜訊,研究者推出 MERRIN 基準測試,使用自然語言查詢、加入影片與音訊等未充分探討的模態,要求在噪聲網路中檢索並推理。測試十種模型在三種搜尋設定下,平均正確率 22.3%,最高 40.1%。結果顯示目前代理人在多模態資訊選擇與推理上仍有顯著挑戰。
沉浸式對話式推薦系統
隨著 XR 技術普及,沉浸式對話式推薦系統開始關注情境即時標籤。研究將資訊需求分為明確意圖與主動需求,並以新指標評估標籤選擇。實驗在時尚、電影與零售三個場景測試 IR、LLM 與 VLM 方法,發現它們未能充分利用場景資訊、產生冗餘標籤且難以預測使用者主動需求,凸顯未來改進空間。
深度分析
工程規範文件包含文字、表格與圖示,傳統 RAG 難以完整擷取。MCERF 以多模態檢索模型 ColPali 結合 LLM 推理,提供混合查詢、圖表融合、高階推理與自洽決策四種模式。實驗顯示相較基線提升 41.1% 正確率,顯示此框架在工程文件理解上具顯著效益。