頻譜範數 - Agents Report

深度分析

背景：最大更新參數化μP讓超大語言模型的學習率可在不同寬度間零樣本轉移。本文以頻譜範數檢視並擴展μP，引入期望作用量範數以處理低秩權重，首次推導出適用於分組查詢注意力(GQA)的μP刻度。實驗顯示在正確刻度下，學習率與權重衰減可跨GQA設定轉移，但在查詢重複數變動時，轉移較為不穩定。