多視角風險分析 - Agents Report

深度分析

面對城市交通日益複雜的安全挑戰，研究提出 Land Transportation Dataset（LTD）與一個交通導向的視覺語言基礎模型 UniVLT。LTD 收錄來自路邊異質攝影機的多視角影像與 11.6K 開放式 VQA 問答對，涵蓋細緻多物件定位、跨鏡頭攝影機選擇與多影像風險分析三大任務。