深度分析
FineVision:為開源視覺-語言模型構建可複製的資料策展流程
FineVision 是一個公開釋出的視覺-語言訓練語料庫,作者以半自動化、人工在環的資料策展流程,統整來自超過200個公開來源、整理為185個子集,形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制,同時將多樣任務(包含 GUI/agentic 操作)納入統一行為空間。
深度分析
FineVision 是一個公開釋出的視覺-語言訓練語料庫,作者以半自動化、人工在環的資料策展流程,統整來自超過200個公開來源、整理為185個子集,形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制,同時將多樣任務(包含 GUI/agentic 操作)納入統一行為空間。
深度分析
AstroVLBench提出一套跨五種天文觀測模態的評測,採逾4100筆專家樣本,比較六款前沿視覺語言模型,發現效能極度依賴模態與資料表示;以物理原理解說的提示比單純描述現象更能提升準確性,且表格化的一維量測勝過繪圖呈現,顯示通用VLM在精密數值與時域任務仍落後領域專用方法。
深度分析
面對零售、倉儲與圖書館等密集準靜態空間,純幾何地圖或單純視覺序列往往難以穩定提供可用的導航訊息。GIST提出一套從消費級手機點雲抽取語意拓撲的多模態流程:先投影成2D占用圖並抽取拓樸結構,接著用智能關鍵影格與視覺語言模型標注代表性物件,形成可供檢索、本地化、分區分類與自然語言路徑生成的共享語意地圖。