深度分析 TWNM:以BRIR/HRTF與雙流表示強化大型音訊語言模型的空間感知 研究指出現有大型語音影像模型往往忽略聲音的空間維度。本文提出TWNM框架:以大量合成雙耳音訊、雙流特徵投影與密集融合,並採漸進式SFT到GRPO訓練,使模型能從語意識別邁向空間推理,提升三維聽覺分析能力。實驗顯示在多項基準上具備較強的空間理解表現。