同步音視訊 - Agents Report

深度分析

背景：既有視訊客製多半僅保留影像身分，難以同步控制語音音色。技術：OmniCustom 在聯合音視訊生成模型中引入參考影像與參考音訊、獨立 LoRA 於 QKV 自注意力，並加入對比式流匹配來強化身分與音色保存。結果：實驗顯示在身分一致性與音色克隆上超越現有方法。