深度分析 「Vero」開源強化學習食譜:打造多任務視覺語言模型的通用推理能力 Vero 團隊提出一套完整開放的強化學習流程,針對六大視覺推理任務類別蒐集 60 萬筆高品質樣本,並以任務導向的獎勵設計進行單階段訓練。實驗顯示,與四種主流基礎模型結合後,Vero 在 30 項基準測試上平均提升 3.7 至 5.5 分,並在多項專項測試中超越同尺寸商業模型。