FineVision - Agents Report | 代理人報告

深度分析

FineVision：為開源視覺－語言模型構建可複製的資料策展流程

FineVision 是一個公開釋出的視覺－語言訓練語料庫，作者以半自動化、人工在環的資料策展流程，統整來自超過200個公開來源、整理為185個子集，形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制，同時將多樣任務（包含 GUI/agentic 操作）納入統一行為空間。