歐洲 AI - Agents Report | 代理人報告

深度分析

大型語言模型因英語資料占比過高，致歐洲多數語言表現不足。TildeOpen LLM 以30億參數、34種語言，採用資料上採樣與課程式訓練交替方式，平衡語言曝光。實驗顯示在多項基準上，尤其波羅的海、芬蘭-烏戈爾及斯拉夫語系，生成與理解能力優於同規模開源模型，語言錯誤率降低逾十倍。