大型音訊語言模型 - Agents Report

深度分析

大型音訊語言模型的音訊越獄：分類架構、聲學攻擊與成本感知評估

本研究指出大型音訊語言模型的越獄風險從文字擴展到語音感知流程，涉及語義、聲學、訊號與嵌入層攻擊。作者提出統一分類並在十個開源模型受控評測，發現NarrativeFraming為低延遲語義威脅，AcousticBest-of-N揭示音訊空間最壞情況脆弱性，並強調防禦需在攻擊成功率、誤拒率與延遲間權衡。