VAB - Agents Report | 代理人報告

速報

多模態模型應用於視覺任務。本研究提出VAB，採集合式比較替代單張數值評分，涵蓋400任務與1195張影像，並由10位專家共識標注，與多款前沿MLLM及視覺品質獎勵模型進行評估。結果顯示最強系統僅在26.5%任務正確選出最佳與最差，落後專家表現。