SpectCount - Agents Report | 代理人報告

深度分析

大型音訊語言模型（LALM）在處理環境聲音、音樂與語音等多樣訊號時，仍受限於高品質標註資料的缺乏。研究提出 SpectCount，一種僅使用即時生成合成脈衝訊號的微調方法，透過計數任務直接針對模型的頻譜‑時間感知弱點進行訓練，無需真實錄音或標註。