深度分析 GQA-μP:以期望作用量範數修正分組查詢注意力的 μP 刻度 背景:最大更新參數化μP讓超大語言模型的學習率可在不同寬度間零樣本轉移。本文以頻譜範數檢視並擴展μP,引入期望作用量範數以處理低秩權重,首次推導出適用於分組查詢注意力(GQA)的μP刻度。實驗顯示在正確刻度下,學習率與權重衰減可跨GQA設定轉移,但在查詢重複數變動時,轉移較為不穩定。