速報
大型語言模型隱藏向量出現類別知覺:數字位數邊界導致表徵幾何扭曲
研究指出,大型語言模型在處理阿拉伯數字時,隱藏層表徵在位數邊界產生類別知覺。以代表性相似性分析比較多款架構,發現「對數距離+邊界增強」模型能更好擬合,且效應專屬於位數轉換的tokenisation不連續,顯示輸入格式結構可塑造模型表徵的類別化幾何。
速報
研究指出,大型語言模型在處理阿拉伯數字時,隱藏層表徵在位數邊界產生類別知覺。以代表性相似性分析比較多款架構,發現「對數距離+邊界增強」模型能更好擬合,且效應專屬於位數轉換的tokenisation不連續,顯示輸入格式結構可塑造模型表徵的類別化幾何。
深度分析
研究發現語言模型在自然語言預訓練中會出現數字的週期性表示。本文指出透過傅立葉頻譜能看到明顯周期性尖峰,但這些頻譜不保證數字餘數類別可線性分離。實驗顯示資料的共現結構、模型架構、優化器與分詞策略共同決定是否出現可用於模數分類的幾何特徵。這影響數字處理與模型可解釋性的研究方向。