音訊深偽偵測 - Agents Report

深度分析

FlowFake：液態時間常數神經 ODE 提升音訊深偽偵測跨資料集泛化效能

隨著神經語音合成技術普及，音訊深偽威脅說話人驗證與公共討論。研究推出 FlowFake，採液態時間常數神經 ODE，同時捕捉 10 ms 頻譜與 2 s 韻律特徵。跨四大資料集測試，準確率逾 80%，參數僅 34 K，遠低於大型模型。相較於圖譜注意力或自監督前端，仍在未見語者與噪音條件下保持優勢，顯示連續時間建模是防禦音訊偽造的關鍵有望成為未來安全防線。