RankTuner:以相對排名指標整合機率與熵的逐詞重權法
背景:監督微調常用逐詞重權。RankTuner提出相對排名指標,比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權,使更新聚焦於真正未學到的標記,減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期,RankTuner勝過機率或熵單一重權基線。
RankTuner:相對排名校準機率與熵
監督微調常用逐詞重權控制學習,但單看機率或熵各有盲點。機率反映與目標對齊程度,熵則反映由預訓練先驗帶來的內在不確定性;忽略任一面向都可能誤判學習重點。
RankTuner引入一個機率—熵校準訊號,稱為相對排名指標(Relative Rank Indicator)。此指標比較真實標記的實際排名與其在模型預測分布下的期望排名,進而評估該標記是被低估還是本質上不確定。
作者再以該指標的倒數作為逐詞Relative Scale來重權微調損失,讓參數更新集中於真正尚未學到的標記,而不會對先驗造成的高熵位置過度懲罰。
實驗跨多種骨幹模型,結果顯示在數學推理任務、異分布推理轉移與程式碼生成的前期表現,RankTuner均優於僅依機率或僅依熵進行重權的基準方法。
延伸閱讀
- ACROS:以門控殘差在不重訓下為解碼式LM引入可控詞義表示
- 殘差化稀疏自編碼器(ReSAE)解析:降低多層 Transformer 干預中的重複與交互
- KAN-SAE:以每維可學習 B-spline 強化稀疏自編碼器以解碼天氣模式
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。