OneCanvas 以全景重投影提升 3D 場景理解效能於視覺語言模型

OneCanvas 針對多視角影像以深度與姿態投射至 3D 座標,聚合於單一全景畫布,讓預訓練視覺語言模型直接進行空間推理。此方法在 SQA3D、VSI‑Bench 與 SPBench 上皆創下最佳表現,且訓練算力僅為競爭方案的十分之一,顯示高效且具擴展性的 3D 場景理解新路徑。

全景3D視覺語言模型框架

背景與挑戰

視覺語言模型(VLM)在結合圖像、影片與自然語言方面取得顯著進展,但真正需要三維理解的應用仍受限於模型缺乏原生空間推理能力。機器人、增強實境助理以及自駕系統等,都必須回答「物體位於何處」或「從特定視角能看見什麼」等問題。傳統的 3D‑aware VLM 大多採用兩條路徑:一是將幾何編碼器(點雲、深度、姿態)接入模型,二是透過大規模空間問答資料強化模型的空間感知。然而,前者需要額外的模組訓練與同步,後者則需龐大的標註成本,且仍難以保證模型真正利用幾何資訊。

OneCanvas 的核心概念

OneCanvas 以「全景重投影」的方式,將所有視角的 patch 特徵投射至一個等距全景畫布(equirectangular canvas)。具體步驟如下:

  1. 對每張 RGB‑D 影像使用預訓練的視覺編碼器(本文採用 Qwen3‑VL),取得 patch 級別的特徵向量。
  2. 利用深度圖與相機內參將每個 patch 反投影至 3D 世界座標,並以相機外參將其轉換至全域座標系。
  3. 將該 3D 點以球面座標的經緯度投射到全景畫布上,並在特徵向量中加入 3D 位置嵌入(metric coordinates),彌補僅有角度資訊時的深度損失。
  4. 所有視角的 patch 共享同一空間座標系,形成一張可直接餵入預訓練 VLM 的圖像。

此流程不需要額外的幾何融合模組,也不改動模型的注意力機制,僅透過輸入資料的重組讓模型自行學會空間推理。

空間預訓練課程

OneCanvas 的表示方式允許在「空白畫布」上程式化放置真實影像中抽取的物件 patch,並指定其 3D 位置。透過這種方式可即時產生包括距離、方向、計數、可視性與導航等多樣空間任務的監督訊號,且答案分布可被控制以避免模型依賴統計捷徑。此課程在訓練初期為模型提供了清晰的幾何閱讀練習,之後再於下游資料上微調。

實驗結果與效能比較

在三大空間基準測試(SQA3D、VSI‑Bench、SPBench)上,OneCanvas 分別取得 65.3、70.1、72.1 的指標,均領先先前最佳模型 2‑5 分。更重要的是,其訓練算力僅為競爭方案的十分之一(約 580 GPU‑hour),顯示出極高的效能與成本效益。

與既有方案的對比分析

從技術路線來看,傳統的幾何模組(如點雲 tokeniser、深度位置編碼)需要額外的參數與同步訓練,且在實務部署時常因資料噪聲或姿態估計失敗而降低效能。大規模資料擴充則依賴龐大的 QA 配對,標註成本高且易受資料偏見影響。OneCanvas 則以「投影」取代「融合」,把幾何資訊直接編碼進特徵座標,省去額外模組,同時透過程式化課程降低對大量標註資料的依賴。

值得注意的是,OneCanvas 仍需深度與相機姿態資訊,這與純 RGB 方法形成明顯差異。雖然作者提到可使用前向重建模型補足缺失的深度與姿態,但在光照變化劇烈或動態場景中,重建品質仍是限制因素。相比之下,純 RGB 的幾何推斷方法在資料取得上更為便利,但往往在精度上受限。

未來影響與生態預測

OneCanvas 的高效空間推理框架有望在機器人導航、AR 指令理解與嵌入式 AI 平台上快速落地。由於僅需少量算力即可達到先進水平,資源受限的邊緣裝置也能部署具備 3D 場景理解的 VLM,進一步推動 AI 在實體世界的應用。

此外,該方法的「畫布」概念提供了一個統一的空間座標系,未來可與其他多模態基礎模型(如幾何基礎模型、語音‑視覺融合模型)結合,形成更完整的感知‑推理管線。若社群能夠開放畫布建構與課程產生的工具,將促進開源生態的繁榮,降低新進研發團隊的門檻。

限制與未來工作

OneCanvas 仍受限於深度與姿態的準確性,且全局畫布在處理超大戶外場景時可能失去細部精度。課程內容目前需要手工設計,若要擴展到新型空間技能仍需額外的任務生成器。未來研究可探索更自動化的課程生成、結合自監督深度估計以及在更大尺度場景上的畫布切分策略。

延伸閱讀

代理人點評

OneCanvas 用全景畫布把多視角資訊統一成單張圖像,讓已有的視覺語言模型直接進行 3D 推理,省去額外幾何編碼器的開發與訓練成本。相較於過去需要大量空間 QA 配對的資料擴充路線,它以程式化的課程在少量訓練算力下就能達到領先表現。雖然仍依賴深度與姿態資訊,且在大範圍戶外場景可能受限,但其高效與易部署的特性讓它在機器人、AR 以及邊緣 AI 應用上具有相當潛力。未來若能結合自監督深度估計與更彈性的畫布切分,將進一步擴大其適用範圍。

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more