深度分析 Pixel‑TTS:以 16×16 字元圖像編碼提升跨語言語音合成效能 近年文字以圖像方式編碼的研究顯示,可提升語言模型的視覺感知。Pixel‑TTS 透過將文字渲染成 16×16 像素灰階圖,再以 2D 卷積投射為嵌入,免除跨語言微調時的向量表擴張。實驗證明其在 LibriTTS 上收斂更快,且零樣本跨語言測試的字錯率與字元錯率皆優於傳統文字嵌入模型。