速報 多模態大型語言模型與視覺美學落差:Visual Aesthetic Benchmark (VAB) 實測報告 多模態模型應用於視覺任務。本研究提出VAB,採集合式比較替代單張數值評分,涵蓋400任務與1195張影像,並由10位專家共識標注,與多款前沿MLLM及視覺品質獎勵模型進行評估。結果顯示最強系統僅在26.5%任務正確選出最佳與最差,落後專家表現。