速報 Pause‑and‑Think‑T:小型視覺語言模型的情境推理突破 近期的視覺語言模型在影片的實體推理、時間一致性與情境規劃上表現不佳。研究團隊推出以推理為核心的訓練資料集 pause‑and‑think‑T,要求模型在產生答案前先暫停、檢視視覺證據並形成簡潔可執行的回應。