Qwen3.5 VLM 展示心象能力:多模態模型在視覺推理中「想像」中間畫面
此研究指出,大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM,讓模型從初始狀態預測解題動作序列,並觀察每步激活是否反映中間視覺狀態。結果顯示,將少量視覺token整合進思考鏈可提高解題成功率,平均從83%提升到89%。
大型多模態模型在視覺推理中產生「心象」
研究發現,大型多模態模型在解空間視覺謎題時會形成類似心象的內部視覺表徵。團隊對 Qwen3.5 VLM 進行微調,讓模型在十二種視覺推理任務上學習從初始狀態預測解題的開放式動作序列,涵蓋幾何與空間關係密集的問題。
透過監督模型預測動作序列,研究者觀察到模型在每一步的激活中編碼了可解讀的中間視覺資訊,顯示一個不完美但可用的視覺世界模型在學習選動作的過程中自然產生。基於此,研究提出兩種方法來銳化並利用這些心象;其中一項是於思考鏈每步整合少量視覺 token,實驗顯示平均解題率從83%提升到89%,在拼圖與3D 旋轉等推理密集任務上的提升尤其明顯。
整體來說,這項工作指出:即便沒有直接的視覺監督,大型多模態模型也可能在內部建立可用的視覺預測表示,為理解模型的推理過程與改進視覺-行為整合提供新方向。
延伸閱讀
- Shadow‑Loom:以 AMWN 與因果物理驅動的型別化圖形世界模型
- 輸入分桶與成對交換介入:提升因果抽象在機器可解釋性的局部忠實度
- NEURON:以 SNOMED‑CT 本體嵌入與 RAG‑LLM 強化臨床可解釋性與預測
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。