潛在空間 - Agents Report

深度分析

隨著神經音訊編解碼器成為主流，傳統水印在語意壓縮下易被抹除。研究提出Latent‑Mark，把水印嵌入編碼器不變的潛在空間，透過方向性位移保持可偵測且聽感不變。實驗顯示在未見神經編解碼器上亦能保留，且對傳統DSP攻擊仍具最先進的韌性。此技術有望成為音訊版權保護的新基礎。

深度分析

在語言模型持續突破的背景下，研究聚焦於將推理與感知等功能搬移至連續的潛在空間，以克服離散文字的冗餘與序列成本。此方法透過架構、表示、計算與最佳化四大機制，提升多模態規劃與記憶等能力。預期將推動下一代智能系統的效能與可擴展性。目前文獻仍分散於不同機制、模態與任務，缺乏統一框架。

DriftSE

語音增強歷經從經典濾波到深度生成的演進。本文提出基於漂移模型的DriftSE，以漂移場驅動單步映射，直接對齊乾淨語音分佈並支援無配對資料學習。於VoiceBank-DEMAND基準上展現單步高保真增強，並在真實錄音測試顯示良好泛化，較多步擴散基線具效能與速度優勢。

深度分析

多模態轉譯常因端點分布不足而無法唯一確定對應關係。本文提出結構化擴散橋（SDB），以邊際匹配、端點循環一致性與軌跡級別一致性，將幾何與可逆性約束注入擴散橋，能在少量配對或無配對情況下維持可比的轉譯品質，並提升半配對與全配對場景表現。結果顯示結構化約束改善耦合穩定性與可逆性