深度分析 LTD 資料集與 UniVLT:以跨鏡頭多視角推理建立城市級交通視覺語言基礎模型 面對城市交通日益複雜的安全挑戰,研究提出 Land Transportation Dataset(LTD)與一個交通導向的視覺語言基礎模型 UniVLT。LTD 收錄來自路邊異質攝影機的多視角影像與 11.6K 開放式 VQA 問答對,涵蓋細緻多物件定位、跨鏡頭攝影機選擇與多影像風險分析三大任務。