LoRA - Agents Report | 代理人報告 (Page 2)

深度分析

Hypernetwork 即時產生 LoRA：解決 AI 代理人微調遺忘與上下文耗盡問題

企業在部署 AI 代理人時常因知識遺忘或上下文衰減而需人工介入。新興的超網路生成模型可即時根據政策文件產生任務專屬 LoRA，省去微調成本並避免上下文限制。實驗顯示此方式在長時間自動化工作中可將人工審核比例降至約10%。此技術同時降低了模型庫的治理負擔。

速報

FreeStyle：利用社群 LoRA 建構大規模雙參考圖像生成框架

Style‑content 雙參考生成旨在同時保留內容語意與套用風格，然而缺乏大量內容‑風格分離且涵蓋長尾風格的三元組資料，使得模型在內容忠實、風格對齊與指令遵循間難以取得平衡。研究提出 FreeStyle，透過社群 LoRA 挖掘作為風格與內容的組合錨點，建立嚴謹的生成與過濾流程，產出跨多模型的大規模風格參考與內容參考三元組。

深度分析

參數效率微調最佳實踐：LoRA、OFT、BEFT 等技術效能評測

PEFT讓模型微調更省記憶體，LoRA仍是最常見，但HuggingFace基準顯示OFT、BEFT等技術在測試分數與記憶體使用上可超越LoRA，建議開發者依需求選擇更合適的微調方法。同時，測試也揭示不同技術在遺忘率、執行時間與checkpoint大小上各有優劣，使用者可依部署需求自行權衡。

深度分析

「ARIADNE」零樣本適配器路由：在 Llama 3.2 與 Qwen2.5 上的高效 PEFT 實驗

隨著參數有效微調技術普及，模型生態出現大量適配器，需在推論時自動挑選。ARIADNE以訓練樣本嵌入計算中心點，無需存取適配器權重，即可在輸入空間完成路由。實驗顯示在23項任務上恢復97.44%上限效能，且在44任務上維持89.7%的選擇正確率，此結果顯示路由方式具備高度可擴展性。

深度分析

StarOR：結合階層式蒙特卡羅樹搜尋與測試時強化學習的優化模型新突破

隨著自然語言轉換成優化模型的需求增長，傳統一次性生成方式易因早期符號錯誤導致模型失效。StarOR 以階層式蒙特卡羅樹搜索結合測試時強化學習，於每個非終端節點即時更新LoRA適配器。實驗顯示在五個基準測試上，StarOR 以4B模型取得65%以上的正確率，領先現有大型語言模型。

深度分析

視覺語言模型中密集 bbox 座標列表的微調干擾與控制策略

本研究聚焦於視覺語言模型（VLM）在密集座標列表微調後所產生的結構化輸出干擾。透過在 Gemma 4 12B 與 Qwen3‑VL‑8B 等模型上加入高容量 LoRA，發現目標定位能力顯著提升的同時，模型會產生重複尾端的列表現象。

TimesFM

Google Research 開源 TimesFM 2.5：高效能 Decoder‑Only 時間序列預測基礎模型

GoogleResearch於2026年開源TimesFM時間序列基礎模型。新版本2.5參數縮減至2億、上下文長度提升至16k，支援連續分位數預測與LoRA微調。模型已嵌入BigQueryML、Sheets等服務，降低企業預測開發門檻成本。

深度分析

TRL v1.0 正式上線：支援 LoRA/QLoRA、DPO、GRPO 等 75 種後訓練技術的穩定庫

HuggingFace推出TRLv1.0，從研究原型轉型為可在生產環境使用的穩定庫，內建超過75種後訓練方法，設計兼顧實驗與穩定性，讓開發者快速嘗試新演算法，同時降低部署風險。每月下載量突破300萬，社群貢獻者逾1.7萬人，未來將持續支援非同步GRPO、知識蒸餾與MoE，讓大型模型訓練更具彈性。

深度分析

「PRISMR」：利用超網路與 LoRA 解決多模態列表生成的解析崩潰

大型多模態模型在長列表排序時常因注意力稀釋而出現解析崩潰，導致輸出不完整或提前終止。研究提出 PRISMR 框架，利用輕量超網路即時將每個候選項編碼為 LoRA 權重，並合併成實例專屬的適配器，取代傳統的長上下文提示。

深度分析

LoRA 縮放因子 α 的核心角色：從光譜抑制到 Signal‑Drift 理論與 LoRA‑α 實驗驗證

隨著大模型快速發展，參數有效微調方法LoRA成為焦點。研究發現LoRA的縮放因子α與學習率η角色不同，α能在不增加漂移比例的情況下放大任務訊號，提升收斂速度與效能。實驗證明，採用平方根法則調整α可顯著優於傳統設定。此方法在184M至12B的模型、自然語言、推理與多模態任務上均展現穩定增益。

深度分析

DoRA‑RBAC 在 LLaMA‑3.1‑8B 與 Mistral‑7B 上的適應器組合幾何合併效能分析

大型語言模型的領域存取控制需要模組化機制。研究測試了基於DoRA的幾何感知合併與傳統歐氏平均，結果顯示在多領域問答上兩者表現相近，且參數空間的正交性並非干擾主因。研究亦指出，方向對齊度僅能解釋幾何合併退化為歐氏行為，無法預測整體組合效能。此發現對未來的適應器組合與隱私保護有重要啟示。

速報

DeepSeek‑R1‑8B 搭配 LoRA 與 NEFTune 提升金融實體辨識效能

金融實體辨識因缺乏領域特化常出錯。研究以 DeepSeek‑R1‑8B 結合 LoRA 與 NEFTune 進行微調，將 1,693 句標註資料轉為指令式三元組，並於 Transformer 層加入輕量矩陣與噪聲嵌入。實驗結果顯示 micro‑F1 從 0.901 提升至 0.912，優於多款主流模型。

Hypernetwork 即時產生 LoRA：解決 AI 代理人微調遺忘與上下文耗盡問題

FreeStyle：利用社群 LoRA 建構大規模雙參考圖像生成框架

參數效率微調最佳實踐：LoRA、OFT、BEFT 等技術效能評測

「ARIADNE」零樣本適配器路由：在 Llama 3.2 與 Qwen2.5 上的高效 PEFT 實驗

StarOR：結合階層式蒙特卡羅樹搜尋與測試時強化學習的優化模型新突破

視覺語言模型中密集 bbox 座標列表的微調干擾與控制策略

Google Research 開源 TimesFM 2.5：高效能 Decoder‑Only 時間序列預測基礎模型

TRL v1.0 正式上線：支援 LoRA/QLoRA、DPO、GRPO 等 75 種後訓練技術的穩定庫

「PRISMR」：利用超網路與 LoRA 解決多模態列表生成的解析崩潰

LoRA 縮放因子 α 的核心角色：從光譜抑制到 Signal‑Drift 理論與 LoRA‑α 實驗驗證

DoRA‑RBAC 在 LLaMA‑3.1‑8B 與 Mistral‑7B 上的適應器組合幾何合併效能分析

DeepSeek‑R1‑8B 搭配 LoRA 與 NEFTune 提升金融實體辨識效能

「ARIADNE」零樣本適配器路由：在 Llama 3.2 與 Qwen2.5 上的高效 PEFT 實驗