深度分析 StoryTR:以心智理論(ToM)強化影片時序檢索的資料與訓練方法 短篇劇情類短影片壓縮大量社交線索,現有視聽模型能看出表面行動,卻難以推斷角色內在意圖與敘事因果。研究提出 StoryTR 基準與一套 Agentic 資料管線,透過三層 Theory of Mind(意圖解碼、敘事推理、邊界定位)生成具說明性的訓練鏈條,並用於訓練小型 7B 模型。