深度分析 FlowFake:液態時間常數神經 ODE 提升音訊深偽偵測跨資料集泛化效能 隨著神經語音合成技術普及,音訊深偽威脅說話人驗證與公共討論。研究推出 FlowFake,採液態時間常數神經 ODE,同時捕捉 10 ms 頻譜與 2 s 韻律特徵。跨四大資料集測試,準確率逾 80%,參數僅 34 K,遠低於大型模型。相較於圖譜注意力或自監督前端,仍在未見語者與噪音條件下保持優勢,顯示連續時間建模是防禦音訊偽造的關鍵有望成為未來安全防線。