指令向量導向大規模音頻語言模型:提升時間注意力與事件定位

研究者提出「指令向量導向」技術,透過比較不同指令提示下的模型激活,於固定音訊中生成導向向量,顯著改變大型音頻語言模型(LALM)的時間注意力分布,使其聚焦於聲音相關區段。

指令向量聚焦音頻時間注意力

背景說明

大型音頻語言模型(LALM)在音訊理解上表現優異,但模型內部的注意力分布往往不透明,難以得知模型聚焦於音訊的哪個時間段。

指令向量導向方法

研究團隊提出「指令向量導向」概念:在相同音訊下,使用不同指令提示產生激活差異,進而構造一個導向向量。此向量會重新調整模型的時間注意力,使其更集中在聲學上相關的區域。

實驗設計與結果

在一個包含三個聲音事件的受控測試中,研究者直接讀取導向後注意力變化最大的時間點,即可定位查詢的聲音事件,無需額外訓練。測試於 Qwen2‑Audio 與 Audio Flamingo 3 兩款模型上分別取得 60.87% 與 68.72% 與真實區間的重疊率,遠高於傳統直接提示(31.84%、46.75%)與隨機基線(27.74%)。

意義與應用

此結果顯示指令向量導向不僅能機制性說明 LALM 的注意力分布,亦提供一種訓練自由的探測手段,協助開發者了解模型內部隱含的時間結構,進一步提升音訊事件檢測與解釋能力。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more