Soro:為塔吉克語優化的對話式大型語言模型,量化後助力教育邊緣部署
研究聚焦塔吉克語在受限運算與連線下的部署。採用開放權重Gemma3為基礎,對1.9億字語料進行持續預訓,並以40000條教師式示例做監督微調。團隊同時建立並公開塔吉克語評測集。結果顯示Soro在塔吉克語基準上超越同尺寸基線,且FP8與INT4量化在降低記憶需求下仍保留語言進步,利於教育場域邊緣部署。
Soro:塔吉克語專用的對話式模型,支援教育場域部署
Soro是一組為塔吉克語量身打造的對話式大型語言模型,目標是在塔吉克斯坦有限運算與連線條件下實務運行。研究以開放權重Gemma 3為起點,對1.9億字塔吉克語語料做持續預訓,並用40000條教師式示例進行監督微調。
為了評估效果,團隊建立並公開一套塔吉克語基準,涵蓋常識、語言能力與學校與大學入學考試領域。於這些專屬評測上,Soro明顯優於相同規模的Gemma 3基線,同時在標準英語資料上仍保有良好表現。
研究也驗證了量化策略:將Soro做FP8與INT4量化後,可在保留多數塔吉克語提升的前提下,顯著減少模型記憶需求,便於在學校等邊緣裝置部署。此技術已支援教育部門的試點計畫,並具備向更多學校擴展的潛力。
延伸閱讀
- VITA‑QinYu:Decoder‑only Transformer 結合 Qwen3‑8B/Youtu‑LLM‑4B,支援角色扮演與歌唱
- X-Voice 多語無稿零樣本聲音克隆:0.4B流匹配架構與雙層語言注入
- Mistral 的 Voxtral TTS:自回歸語義引擎與 flow-matching 聲學模型實現 3 秒短樣本多語聲音克隆
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。