深度分析 五模態基準 AstroVLBench 評估 VLM 在 AGN 分類與數值推理上的表現 AstroVLBench提出一套跨五種天文觀測模態的評測,採逾4100筆專家樣本,比較六款前沿視覺語言模型,發現效能極度依賴模態與資料表示;以物理原理解說的提示比單純描述現象更能提升準確性,且表格化的一維量測勝過繪圖呈現,顯示通用VLM在精密數值與時域任務仍落後領域專用方法。