語意-聲學自編碼器 (SAME) - Agents Report

深度分析

Stable Audio 3 技術剖析：SAME 自編碼器、變長潛在擴散與對抗式後訓練

Stable Audio 3 是一組基於潛在擴散的音訊生成與編輯模型（small、medium、large），核心在於一個語意‑聲學（semantic‑acoustic）自編碼器與變長生成機制。自編碼器以極大壓縮比（4096×）將44.1kHz立體聲波形映射到256維潛在序列，保留頻譜與語意特徵以利擴散建模；