ADMA - Agents Report | 代理人報告

深度分析

近年文字以圖像方式編碼的研究顯示，可提升語言模型的視覺感知。Pixel‑TTS 透過將文字渲染成 16×16 像素灰階圖，再以 2D 卷積投射為嵌入，免除跨語言微調時的向量表擴張。實驗證明其在 LibriTTS 上收斂更快，且零樣本跨語言測試的字錯率與字元錯率皆優於傳統文字嵌入模型。