深度分析 JAEGER:用 Neural IV 結合 RGB‑D 與 FOA 實現端到端三維視聽定位與推理 視聽大模型多以二維影像與單聲道音訊為主,難以在三維場域定位與空間推理。JAEGER以彩色深度影像結合多通道全向音訊,並提出NeuralIV加強方向性線索;實驗顯示提升定位與視聽推理成效。資料集與模擬環境支援多源重疊與混響場景,驗證模型在複雜音場仍維持穩定表現。