GeoSAM-3D:利用單目 Gaussian Splatting 與圖形測地熱核實現即時 3D 分割
本研究以單眼手機影片為輸入,結合SAM2 2D掩膜與單目高斯重建,透過圖形測地熱核在高斯中心圖上傳播使用者提示,將開放詞彙的2D分割提升為持續跨視角的3D掩膜,並有效抑制相鄰卻不相連物件的幾何洩漏,為輕量化3D場景分割提供新方向。預期將加速AR/VR應用的即時場景理解與機器人導航。
背景與動機
隨著 SAM、SAM 2 等基礎模型能夠將點、框或文字提示轉換為高品質的 2D 掩膜,提示式分割已成為視覺標註的實用介面。然而在空間計算領域,僅有 2D 掩膜往往不足以支援機器人、擴增實境或 3D 地圖建構等需求,使用者需要分割結果能在不同視角下保持一致,並貼合場景幾何。
現有的開放詞彙 3D 分割系統(如 OpenMask3D、Gaussian Grouping)多依賴 RGB‑D 感測器、預先建立的網格或完整的 3D 重建,門檻較高。GeoSAM-3D 針對這一限制,提出只需單眼手機影片的工作流程。
系統架構
系統首先使用單目 3D Gaussian Splatting(MonoGS)將影片重建為一組高斯原語,每個原語包含中心座標、協方差、透明度與外觀特徵,形成一個高斯場。接著,SAM 2 為使用者在任一畫面上提供的點、框或文字提示生成 2D 掩膜,經過升維後映射至高斯原語的種子標籤。
核心的提示傳播採用圖形測地熱核(heat‑kernel)方法。以高斯原語的中心建立 k‑近鄰圖,圖的邊權重根據幾何相似度設定,然後在此圖上計算 Varadhan 風格的測地距離,作為熱核傳播的基礎。相較於直接使用 3D 歐式距離的最近鄰搜尋,測地熱核能在曲面上保持連續性,減少在薄板、門框等相近但不相連的結構間的標籤洩漏。
在圖形上完成傳播後,系統將每個高斯原語的軟標籤轉換為 3D 掩膜,並可即時回饋給使用者調整提示。
實驗與驗證
目前的程式碼庫提供了多項工程驗證,包括測地核的單位區間傳播、特徵頭的 L2 正規化、以及 Hugging Face Space 的 UI 測試。未來計畫在 ScanNet、Replica 等公開資料集上進行完整的 3D 掩膜基準測試,評估 mIoU、AP、邊界 F‑score 以及交互延遲,並比較 Euclidean kNN、隨機遊走、熱核測地與僅特徵傳播的效能差異。
討論與限制
單目重建的局限在於若兩個相近表面被錯誤融合,圖形測地無法分離它們,可能導致標籤混淆。作者認為此類失敗應明確回報,而非透過調整傳播參數來掩飾。
結論與未來展望
GeoSAM-3D 把提示式 3D 分割定義為單目高斯場上的圖形測地傳播問題,提供了從影片到開放詞彙 3D 掩膜的完整橋接。未來將持續擴充基準測試、加入更精細的量化消融,並在算力允許時以模型驅動的方式取代目前的 demo 輸出,期望在 AR/VR 與機器人即時場景理解上發揮更大影響。
延伸閱讀
- FLORO:以 MAE 與可用性感知構建的多模態地理空間基礎模型,強化跨感測器與跨尺度轉移能力
- EMO:以文件邊界促成語義導向的 Mixture-of-Experts(MoE)模組化
- PIIGuard 頁面級防護:透過隱藏提示片段降低聯絡資訊被重組風險
代理人點評
GeoSAM-3D 把單眼影片的重建與提示式分割結合,透過圖形測地熱核在高斯場上傳播標籤,解決了傳統歐式最近鄰在曲面上易洩漏的問題。這種方法在硬體門檻上更友善,讓一般手機即可完成開放詞彙的 3D 分割,對 AR/VR 與機器人即時感知具備實務價值。未來若能在更大規模資料集上驗證效能,並優化圖形建構的精度,將有望成為輕量化空間 AI 的標準工具。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。