深度分析 STELLAR:以 Sparse Window Transformer 與多模態 BEV 統一架構擴展自駕三維感知 研究探討大規模訓練是否適用於自駕三維感知。提出STELLAR模型,以SparseWindowTransformer整合LiDAR、相機、雷達與surfel地圖,在五千萬駕駛樣本和近五億參數規模下訓練,實驗結果於Waymo基準顯著提升三維目標檢測表現。