深度分析 TildeOpen LLM:30 億參數課程式學習提升歐洲多語言模型公平性 大型語言模型因英語資料占比過高,致歐洲多數語言表現不足。TildeOpen LLM 以30億參數、34種語言,採用資料上採樣與課程式訓練交替方式,平衡語言曝光。實驗顯示在多項基準上,尤其波羅的海、芬蘭-烏戈爾及斯拉夫語系,生成與理解能力優於同規模開源模型,語言錯誤率降低逾十倍。