RGB-D - Agents Report | 代理人報告

深度分析

JAEGER：用 Neural IV 結合 RGB‑D 與 FOA 實現端到端三維視聽定位與推理

視聽大模型多以二維影像與單聲道音訊為主，難以在三維場域定位與空間推理。JAEGER以彩色深度影像結合多通道全向音訊，並提出NeuralIV加強方向性線索；實驗顯示提升定位與視聽推理成效。資料集與模擬環境支援多源重疊與混響場景，驗證模型在複雜音場仍維持穩定表現。

深度分析

RecGen：從稀疏 RGB‑D 觀測同時推估形狀、結構與 6‑DoF 姿態

隨著機器人模擬需求提升，稀疏RGB‑D觀測的完整3D重建成為挑戰。RecGen結合生成式模型與姿態估計，同時支援單視與多視輸入，並以合成遮蔽資料學習。實驗顯示在多項基準上比SAM3D提升30%以上，且訓練資料量減少近八成。此技術有望降低機器人數位孿生建構成本，促進AI在實境模擬與自主導航的落地應用。

深度分析

GIST：以語意拓樸結合 RGB-D 與 VLM 的室內語意導航

面對零售、倉儲與圖書館等密集準靜態空間，純幾何地圖或單純視覺序列往往難以穩定提供可用的導航訊息。GIST提出一套從消費級手機點雲抽取語意拓撲的多模態流程：先投影成2D占用圖並抽取拓樸結構，接著用智能關鍵影格與視覺語言模型標注代表性物件，形成可供檢索、本地化、分區分類與自然語言路徑生成的共享語意地圖。