多模態大型語言模型與視覺美學落差:Visual Aesthetic Benchmark (VAB) 實測報告
多模態模型應用於視覺任務。本研究提出VAB,採集合式比較替代單張數值評分,涵蓋400任務與1195張影像,並由10位專家共識標注,與多款前沿MLLM及視覺品質獎勵模型進行評估。結果顯示最強系統僅在26.5%任務正確選出最佳與最差,落後專家表現。
重點速覽
多模態大型語言模型(MLLM)已廣泛用於視覺理解、生成與整理,但在美學判斷的可靠性上仍有疑問。研究團隊以集合式比較取代傳統對單張影像的標量評分,建立Visual Aesthetic Benchmark(VAB)。
VAB涵蓋400道任務與1,195張影像,跨越美術、攝影與插畫三大類別;每題由10位獨立專家投票產生共識標注。研究對20款前沿MLLM與6款視覺品質獎勵模型進行測評,結果顯示即使在三種隨機候選排列下,最強系統也只有26.5%的任務能同時正確選出最佳與最差影像,遠低於專家的68.9%。
研究還發現,將一個35B參數模型以2,000個專家範例微調,可顯著提升其在VAB上的表現,接近一個397B參數的公開模型,顯示比較式標註的訊號具有可轉移性。總結而言,VAB揭示當前多模態系統與專業美學判斷之間存在明確差距,並提供第一個集合式、專家標準的測試床,便於未來持續追蹤與改進。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。