BRIR/HRTF - Agents Report | 代理人報告

深度分析

研究指出現有大型語音影像模型往往忽略聲音的空間維度。本文提出TWNM框架：以大量合成雙耳音訊、雙流特徵投影與密集融合，並採漸進式SFT到GRPO訓練，使模型能從語意識別邁向空間推理，提升三維聽覺分析能力。實驗顯示在多項基準上具備較強的空間理解表現。