astrovlbench - Agents Report

深度分析

AstroVLBench提出一套跨五種天文觀測模態的評測，採逾4100筆專家樣本，比較六款前沿視覺語言模型，發現效能極度依賴模態與資料表示；以物理原理解說的提示比單純描述現象更能提升準確性，且表格化的一維量測勝過繪圖呈現，顯示通用VLM在精密數值與時域任務仍落後領域專用方法。