vision-language-models - Agents Report

深度分析

FineVision：為開源視覺－語言模型構建可複製的資料策展流程

FineVision 是一個公開釋出的視覺－語言訓練語料庫，作者以半自動化、人工在環的資料策展流程，統整來自超過200個公開來源、整理為185個子集，形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制，同時將多樣任務（包含 GUI/agentic 操作）納入統一行為空間。

深度分析

五模態基準 AstroVLBench 評估 VLM 在 AGN 分類與數值推理上的表現

AstroVLBench提出一套跨五種天文觀測模態的評測，採逾4100筆專家樣本，比較六款前沿視覺語言模型，發現效能極度依賴模態與資料表示；以物理原理解說的提示比單純描述現象更能提升準確性，且表格化的一維量測勝過繪圖呈現，顯示通用VLM在精密數值與時域任務仍落後領域專用方法。

深度分析

GIST：以語意拓樸結合 RGB-D 與 VLM 的室內語意導航

面對零售、倉儲與圖書館等密集準靜態空間，純幾何地圖或單純視覺序列往往難以穩定提供可用的導航訊息。GIST提出一套從消費級手機點雲抽取語意拓撲的多模態流程：先投影成2D占用圖並抽取拓樸結構，接著用智能關鍵影格與視覺語言模型標注代表性物件，形成可供檢索、本地化、分區分類與自然語言路徑生成的共享語意地圖。