FOA - Agents Report | 代理人報告

深度分析

視聽大模型多以二維影像與單聲道音訊為主，難以在三維場域定位與空間推理。JAEGER以彩色深度影像結合多通道全向音訊，並提出NeuralIV加強方向性線索；實驗顯示提升定位與視聽推理成效。資料集與模擬環境支援多源重疊與混響場景，驗證模型在複雜音場仍維持穩定表現。