深度分析 Mixture-of-Visual-Thoughts(MoVT)與AdaVaR:情境自適應的多模式視覺推理框架 視覺推理常被侷限於單一推理型態,研究提出MoVT透過統一序列格式在單一模型內學習多種推理模式,並以AdaVaR兩階段訓練結合SFT與專門的AdaGRPO強化學習,讓模型能根據影像與問題情境自適應選擇最佳推理模式。實驗顯示在多項基準上帶來穩定效能提升。