心象表徵 - Agents Report

速報

此研究指出，大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM，讓模型從初始狀態預測解題動作序列，並觀察每步激活是否反映中間視覺狀態。結果顯示，將少量視覺token整合進思考鏈可提高解題成功率，平均從83%提升到89%。