視覺問答 - Agents Report

速報

大型語言模型規則蒸餾提升視覺問答推理解釋性

本研究提出一種從大型語言模型（LLM）蒸餾規則的方法，協助視覺問答（VQA）系統在面對新任務需求時快速擴充其邏輯推理模型。研究者以答案集合程式（ASP）作為推理理論的基礎，透過提示 LLM 產生並修正規則，並以少量 VQA 範例驗證與回饋。

速報

從大型語言模型蒸餾規則提升視覺問答可解釋性

本研究提出一套利用大型語言模型（LLM）蒸餾規則的技術，針對視覺問答（VQA）任務的推理模組進行擴充。研究者先以答案集合程式（ASP）建立初始推理理論，然後以少量 VQA 範例提示 LLM 產生新規則，並透過 ASP 求解器回饋修正錯誤。

速報

SMART-HC-VQA：以 Sentinel-2 衛星影像打造的施工場址時序視覺問答資料集

以 Sentinel-2 衛星影像與 IARPA SMART Heavy Construction 標註為基礎，SMART-HC-VQA 將工地標籤與時序觀測轉為自然語言問答；採用影像對組合擴增生成大量比較樣本，並以多影像 MLLM 訓練框架驗證語言驅動的遙測變化與過程推理能力。

深度分析

CamReasoner：結構化空間推理提升相機運動理解與效能

相機運動理解是影片空間智慧的基礎，CamReasoner 以 Observation‑Thinking‑Answer 框架將其轉化為結構化推理，透過 18k 推理鏈與 38k RL 回饋樣本強化幾何線索。實驗顯示二元分類正確率從 73.8% 提升至 78.4%，VQA 從 60.9% 提升至 74.5%，顯示此方法在可解釋性與效能上均具優勢。