Mixture-of-Visual-Thoughts (MoVT) - Agents Report

深度分析

視覺推理常被侷限於單一推理型態，研究提出MoVT透過統一序列格式在單一模型內學習多種推理模式，並以AdaVaR兩階段訓練結合SFT與專門的AdaGRPO強化學習，讓模型能根據影像與問題情境自適應選擇最佳推理模式。實驗顯示在多項基準上帶來穩定效能提升。