深度分析
JAEGER:用 Neural IV 結合 RGB‑D 與 FOA 實現端到端三維視聽定位與推理
視聽大模型多以二維影像與單聲道音訊為主,難以在三維場域定位與空間推理。JAEGER以彩色深度影像結合多通道全向音訊,並提出NeuralIV加強方向性線索;實驗顯示提升定位與視聽推理成效。資料集與模擬環境支援多源重疊與混響場景,驗證模型在複雜音場仍維持穩定表現。
深度分析
視聽大模型多以二維影像與單聲道音訊為主,難以在三維場域定位與空間推理。JAEGER以彩色深度影像結合多通道全向音訊,並提出NeuralIV加強方向性線索;實驗顯示提升定位與視聽推理成效。資料集與模擬環境支援多源重疊與混響場景,驗證模型在複雜音場仍維持穩定表現。
深度分析
隨著機器人模擬需求提升,稀疏RGB‑D觀測的完整3D重建成為挑戰。RecGen結合生成式模型與姿態估計,同時支援單視與多視輸入,並以合成遮蔽資料學習。實驗顯示在多項基準上比SAM3D提升30%以上,且訓練資料量減少近八成。此技術有望降低機器人數位孿生建構成本,促進AI在實境模擬與自主導航的落地應用。
深度分析
面對零售、倉儲與圖書館等密集準靜態空間,純幾何地圖或單純視覺序列往往難以穩定提供可用的導航訊息。GIST提出一套從消費級手機點雲抽取語意拓撲的多模態流程:先投影成2D占用圖並抽取拓樸結構,接著用智能關鍵影格與視覺語言模型標注代表性物件,形成可供檢索、本地化、分區分類與自然語言路徑生成的共享語意地圖。