大型音訊語言模型 - Agents Report

深度分析

研究指出大型音訊語言模型在基準測試上得分提升，但高分未必反映真實聽覺理解。本文提出以「文字先驗」與「音訊依賴」雙軸診斷，透過無音訊、原文模型與分段音訊評估，量化文字線索與聲學貢獻。結果顯示多數分數可在無音訊下保留六成以上，提醒需改進基準設計。