Transformer在布林函數上的泛化:傅立葉頻譜與PAC-Bayes的低銳利度路徑
研究從傅立葉頻譜角度切入transformer在布林任務的泛化,採用PAC-Bayes方法指出若目標函數頻譜稀疏且集中於低階成分,可構造低銳利度和平坦極小值,並對理想化學習者套用PAC-Bayes界獲得非虛無的泛化界;實驗與機械可解釋性分析支援此理論構想。
Transformer泛化的新視角:傅立葉頻譜與PAC-Bayes
最新研究指出,從傅立葉頻譜出發可以揭示transformer在布林域任務的泛化行為。當目標函數的頻譜稀疏且集中於低階成分時,能構造出低銳利度且平坦的極小值,進而得到有意義的PAC-Bayes泛化界。
此作法與以往依賴Rademacher複雜度的分析不同。作者先理論上證明存在可實現任意稀疏度不超過上下文長度的平坦極小值,接著對一個理想化的低銳利度學習者套用PAC-Bayes界,推導出非虛無的泛化上界。
為了驗證理論的現實相關性,研究還進行實驗並搭配機械可解釋性分析,檢視所提出構造是否能在真實transformer中觀察到相應機制。整體而言,研究強調頻譜稀疏與低階成分可能是transformer在布林任務上泛化的關鍵線索,並為後續探索模型機制與理論界提供可檢驗的方向。
延伸閱讀
- GLU 改寫 NTK 譜:透過條件數降低加速大型模型訓練
- MiMuon:以條件正交化改善 Muon 的泛化與收斂折衷
- cuRegOT:在 CUDA 上實作稀疏+低秩準牛頓法以加速 entropic-regularized 最佳運輸
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。