多任務訓練 - Agents Report

深度分析

Vero 團隊提出一套完整開放的強化學習流程，針對六大視覺推理任務類別蒐集 60 萬筆高品質樣本，並以任務導向的獎勵設計進行單階段訓練。實驗顯示，與四種主流基礎模型結合後，Vero 在 30 項基準測試上平均提升 3.7 至 5.5 分，並在多項專項測試中超越同尺寸商業模型。