SMART-HC-VQA:以 Sentinel-2 衛星影像打造的施工場址時序視覺問答資料集
以 Sentinel-2 衛星影像與 IARPA SMART Heavy Construction 標註為基礎,SMART-HC-VQA 將工地標籤與時序觀測轉為自然語言問答;採用影像對組合擴增生成大量比較樣本,並以多影像 MLLM 訓練框架驗證語言驅動的遙測變化與過程推理能力。
重點速報
研究提出 SMART-HC-VQA,將 IARPA SMART Heavy Construction 的施工場址標註,結合 Sentinel-2 衛星影像,改寫為可做時序分析的視覺問答(VQA)資料集。
資料與方法
作者把工地註記、工程類型、時間階段、地理資訊與觀測關係轉換為自然語言的問答三元組,並設計 Image-Pairwise Combinatorial Augmentation,系統化產生大量雙影像的比較範例,讓時序變化成為訓練信號。
資料集目前收錄 21,837 個 Sentinel-2 影像切片、65,511 筆單影像 VQA 範例,以及約 2.3 百萬筆雙影像比較範例。研究說明了影像檢索、切片分割、與 SMART-HC 標註間的可追溯流程,並分析場址大小、觀測次數、時間涵蓋、工程類型與階段的分佈。
模型與應用
研究實作一個多影像的 MLLM 訓練框架,基於 LLaVA-NeXT Mistral-7B,調整輸入以接受多個帶日期的影像與相應元資料,並以資料集生成的 VQA 範例進行訓練。此設計不只側重於偵測變化,更強調用語言來推理進行中的工程過程與其演進方向。
意義
該工作提供一個可重複的實驗基礎,促進語言導向的遙測研究,讓模型不僅能判別是否有變化,也能就變化背後的過程與階段做出推斷,對於關注施工監測和時序人類活動分析的研究與應用具參考價值。
延伸閱讀
- Recoverability Maps:量化影像還原邊界以提升車牌辨識
- 大型語言模型文化偏誤審計:GPT-5.4、Claude Sonnet 4.5、Gemini 2.5 Flash 的個體主義傾向分析
- 大型自律代理人社會的集體智慧:以 MoltBook 和 Probing Agents 的三級檢測框架驗證
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。