深度分析 從分詞器到字元層:解析詞界碎片化引發的「文字不自然谷」與緩解策略 研究指出,當文字在詞彙間插入空格造成碎片化時,大型語言模型的資訊檢索表現呈現U形曲線,稱為文字不自然谷;中度碎片化最為致命,極端碎片化則因字元層處理而部分恢復。此現象與傳統噪聲容忍測試不同,顯示模型在詞層與字元層切換時會出現不穩定區;未來需設計新基準及前處理策略,以免OCR等應用受此影響。