深度分析 FineVision:為開源視覺-語言模型構建可複製的資料策展流程 FineVision 是一個公開釋出的視覺-語言訓練語料庫,作者以半自動化、人工在環的資料策展流程,統整來自超過200個公開來源、整理為185個子集,形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制,同時將多樣任務(包含 GUI/agentic 操作)納入統一行為空間。