深度分析 SpectCount:利用合成脈衝訊號提升大型音訊語言模型的頻譜時間計數能力 大型音訊語言模型(LALM)在處理環境聲音、音樂與語音等多樣訊號時,仍受限於高品質標註資料的缺乏。研究提出 SpectCount,一種僅使用即時生成合成脈衝訊號的微調方法,透過計數任務直接針對模型的頻譜‑時間感知弱點進行訓練,無需真實錄音或標註。