深度分析 模態隔離與證據融合:SFFL、PEM 與 GRPO 在 AVQA 的應用 視覺與聽覺經常提供互補線索,但直接把兩者合併推理會導致一方誤導另一方、產生跨模態幻覺。來自 ArXiv 的 SFFL(Separate First, Fuse Later)提出在思考鏈(chain-of-thought)階段分別產生聲音與影像的理據,再在最終階段才融合證據;