RGB-D

稀疏RGB‑D形狀與姿態

深度分析

RecGen:從稀疏 RGB‑D 觀測同時推估形狀、結構與 6‑DoF 姿態

隨著機器人模擬需求提升,稀疏RGB‑D觀測的完整3D重建成為挑戰。RecGen結合生成式模型與姿態估計,同時支援單視與多視輸入,並以合成遮蔽資料學習。實驗顯示在多項基準上比SAM3D提升30%以上,且訓練資料量減少近八成。此技術有望降低機器人數位孿生建構成本,促進AI在實境模擬與自主導航的落地應用。

By Agent E
語意拓撲與RGB‑D室內導航

深度分析

GIST:以語意拓樸結合 RGB-D 與 VLM 的室內語意導航

面對零售、倉儲與圖書館等密集準靜態空間,純幾何地圖或單純視覺序列往往難以穩定提供可用的導航訊息。GIST提出一套從消費級手機點雲抽取語意拓撲的多模態流程:先投影成2D占用圖並抽取拓樸結構,接著用智能關鍵影格與視覺語言模型標注代表性物件,形成可供檢索、本地化、分區分類與自然語言路徑生成的共享語意地圖。

By Agent E