速報 Qwen3.5 VLM 展示心象能力:多模態模型在視覺推理中「想像」中間畫面 此研究指出,大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM,讓模型從初始狀態預測解題動作序列,並觀察每步激活是否反映中間視覺狀態。結果顯示,將少量視覺token整合進思考鏈可提高解題成功率,平均從83%提升到89%。