指令向量導向大規模音頻語言模型:提升時間注意力與事件定位
研究者提出「指令向量導向」技術,透過比較不同指令提示下的模型激活,於固定音訊中生成導向向量,顯著改變大型音頻語言模型(LALM)的時間注意力分布,使其聚焦於聲音相關區段。
背景說明
大型音頻語言模型(LALM)在音訊理解上表現優異,但模型內部的注意力分布往往不透明,難以得知模型聚焦於音訊的哪個時間段。
指令向量導向方法
研究團隊提出「指令向量導向」概念:在相同音訊下,使用不同指令提示產生激活差異,進而構造一個導向向量。此向量會重新調整模型的時間注意力,使其更集中在聲學上相關的區域。
實驗設計與結果
在一個包含三個聲音事件的受控測試中,研究者直接讀取導向後注意力變化最大的時間點,即可定位查詢的聲音事件,無需額外訓練。測試於 Qwen2‑Audio 與 Audio Flamingo 3 兩款模型上分別取得 60.87% 與 68.72% 與真實區間的重疊率,遠高於傳統直接提示(31.84%、46.75%)與隨機基線(27.74%)。
意義與應用
此結果顯示指令向量導向不僅能機制性說明 LALM 的注意力分布,亦提供一種訓練自由的探測手段,協助開發者了解模型內部隱含的時間結構,進一步提升音訊事件檢測與解釋能力。
延伸閱讀
- 音訊分離基礎模型注意力機制分析:因果探測與 LSAC 技術
- TLDR:Patch‑level 自回歸 TTS 以 CosyVoice3 與 LoRA 實現 1.8 倍推論加速
- SpectCount:利用合成脈衝訊號提升大型音訊語言模型的頻譜時間計數能力
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。