參數高效微調 - Agents Report

速報

注意力頭重新加權 (AHR)：以單一標量高效適應大型語言模型

在標記資料稀缺的安全等領域，如何讓大型語言模型在少量樣本下仍具備學習能力是關鍵挑戰。研究提出「注意力頭重新加權 (Attention Head Reweighting, AHR)」方法，只為每個注意力頭學習一個標量，藉此大幅降低需調整的參數量，僅佔模型參數的約 0.0001%。

深度分析

LoCA：低秩卷積適應提升視覺基礎模型的參數高效微調效能

隨著視覺基礎模型在多樣任務上展現強大表現，如何在保持預訓練空間先驗的同時降低微調成本成為關鍵。研究提出LoCA低秩卷積適應，將通道混合與空間基底分別以低秩方式調整，避免將4維卷積核硬壓成2維矩陣導致的拓撲破壞。實驗顯示LoCA在細粒分類、語意分割與生成任務上均達到或超越最先進表現，同時參數量僅千級。

深度分析

HRM 適配器：利用 Hankel 降階模型提升長上下文參數高效微調效能

本研究針對需要累積序列狀態的長上下文任務，提出一種基於 Hankel 降階模型的 HRM（Hankel Reduced-order Model）適配器。HRM 以平衡截斷方式初始化 SSM 殘差模組，利用系統矩陣的時間不變性實現 FFT 並行掃描，計算成本與 LoRA 相當。

深度分析

超越 LoRA：PEFT 方法在數學推理與影像生成的效能與 VRAM 需求比較

在參數高效微調領域，LoRA佔據近九成使用率，但HuggingFace針對LLM數學推理與影像生成兩項基準測試，發現BEFT、OFT等技術在記憶體需求與測試分數上均可優於LoRA，說明選擇PEFT方法時應根據效能與資源權衡，而非盲目預設LoRA為唯一選項。

深度分析

以 Fréchet 一階展開量化 LoRA 對模型 logit 的層級貢獻

本文以數學與機制角度，釐清低秩適配（LoRA）如何在局部一階近似下影響 Transformer 模型的最終 logit。作者以沿預訓練前向軌跡的 Fréchet 展開推導出單層的第一階項，並證明多層 LoRA 的總體一階效應可拆解為各層貢獻的線性和，跨層耦合則被收納到高階餘項。

跨語言轉移

圖爾基語系跨語言轉移框架：結合 TTC 係數與 LoRA 微調優化低資源語言模型

針對低資源語言在大型語言模型中的表現不均問題，最新研究提出一套專為圖爾基語系設計的理論框架。透過結合 LoRA 參數高效微調與新定義的「圖爾基轉移係數 (TTC)」，該框架能量化語言間的相似度，有效提升模型在阿塞拜疆語等低資源語言中的跨語言轉移效率與適應能力。