波蘭語 tokenizer - Agents Report

深度分析

Bielik v3 系列 7B 與 11B 模型：波蘭語專屬 Tokenizer 提升效能與精度

隨著通用大型語言模型在多語言上表現突出，波蘭語的形態學特性卻常因通用 tokenizer 而受限。研究以波蘭語專屬詞彙表取代 Mistral tokenizer，並結合 FOCUS 初始化與多階段預訓練，再透過 SFT、DPO 與 GRPO 強化學習微調。結果顯示模型 token 肥度下降、推論成本降低，提升了實務應用的效能與可擴展性。