速報
從大型語言模型蒸餾規則提升視覺問答可解釋性
本研究提出一套利用大型語言模型(LLM)蒸餾規則的技術,針對視覺問答(VQA)任務的推理模組進行擴充。研究者先以答案集合程式(ASP)建立初始推理理論,然後以少量 VQA 範例提示 LLM 產生新規則,並透過 ASP 求解器回饋修正錯誤。
速報
本研究提出一套利用大型語言模型(LLM)蒸餾規則的技術,針對視覺問答(VQA)任務的推理模組進行擴充。研究者先以答案集合程式(ASP)建立初始推理理論,然後以少量 VQA 範例提示 LLM 產生新規則,並透過 ASP 求解器回饋修正錯誤。
速報
以 Sentinel-2 衛星影像與 IARPA SMART Heavy Construction 標註為基礎,SMART-HC-VQA 將工地標籤與時序觀測轉為自然語言問答;採用影像對組合擴增生成大量比較樣本,並以多影像 MLLM 訓練框架驗證語言驅動的遙測變化與過程推理能力。
深度分析
相機運動理解是影片空間智慧的基礎,CamReasoner 以 Observation‑Thinking‑Answer 框架將其轉化為結構化推理,透過 18k 推理鏈與 38k RL 回饋樣本強化幾何線索。實驗顯示二元分類正確率從 73.8% 提升至 78.4%,VQA 從 60.9% 提升至 74.5%,顯示此方法在可解釋性與效能上均具優勢。