深度分析 Stable Audio 3 技術剖析:SAME 自編碼器、變長潛在擴散與對抗式後訓練 Stable Audio 3 是一組基於潛在擴散的音訊生成與編輯模型(small、medium、large),核心在於一個語意‑聲學(semantic‑acoustic)自編碼器與變長生成機制。自編碼器以極大壓縮比(4096×)將44.1kHz立體聲波形映射到256維潛在序列,保留頻譜與語意特徵以利擴散建模;