LoRA - Agents Report | 代理人報告 (Page 4)

深度分析

unix-ctf：以可驗證植旗／回收契約評估 Unix 能力（Qwen3-8B、LoRA 與容器化驗證）

unix-ctf 將「Unix 能力」從以程式為中心的終端任務中抽離，建立一個專注於作業系統、檔案格式與 shell 原生機制的訓練與評測表面。系統以大型語言模型輔助生成「植旗／找旗」腳本，並透過雙向契約自動驗證：植旗後磁碟不可留有明文旗、且在新目錄能被回收。

深度分析

PiSAR 基準：受監督微調（LoRA）使 Qwen3‑VL‑8B 在螢幕導向行為理據任務超越 Claude Opus 與 GPT‑5.5

本報導改寫自一篇針對 PiSAR 屏幕條件化行為理據資料集的實驗報告。作者在 661 行留置測試上，對比前沿零樣本基線（Claude Opus、GPT-5.5）與受監督微調（managed LoRA）後的小型視覺語言基底（Qwen3‑VL‑8B‑Instruct）。

深度分析

參數化具身代理 PEAM：用 LoRA 與 Qwen3‑VL‑8B‑Instruct 提升 Minecraft 長程任務表現

隨著大型語言模型在具身代理中的應用普遍，記憶仍多為外部檢索。研究提出PEAM框架，將成功與修正的操作軌跡內化為參數化適配器，並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘，且以自觸發機制在失敗統計達標時自動內化，免除手動門檻，提升了代理的實時反應速度。

速報

MinT（MindLab Toolkit）：管理化 LoRA 適配器平台，為百萬級策略目錄提供訓練與線上部署

研究在於為大量衍生策略提供管理化部署.MinT保留巨型基礎模型常駐，讓LoRA適配器在rollout與回滾間流轉並隱藏分散式訓練.透過ScaleUp、ScaleDown與ScaleOut三軸擴展，支援密集與MoE架構並優化載入效率.能管理百萬級策略目錄並加速適配器載入與多策略併發服務.

深度分析

CroCo 多語偏好微調：以英語訓練獎勵模型、DPO 與 LoRA 實現跨語對齊

研究探討把英語上的對比偏好調教延伸到多語環境。CroCo以模型自生成回應配對、用英語訓練的獎勵模型於各語言內排序，並以DPO配對微調與LoRA做參數高效適配。實驗顯示多數語言和任務可見改善，同時減少SFT造成的遺忘。這說明英語訓練的獎勵信號可作為跨語言內部排序依據，降低逐語標註需求。

深度分析

Gemma 4 31B 在 TPU 上以 LoRA 微調與 vLLM 部署：效能、成本與工程要點

研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景，詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程，以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低，並在長上下文推理延遲與吞吐上展現顯著優勢，惟評估品質部分 GPU 仍有領先。

深度分析

LoRA 夜間權重鞏固：將使用者互動折疊入 LLM 的三階段流程

研究指出僅靠上下文壓縮無法長期保存用戶偏好；本文提出以 LoRA 為核心的夜間權重鞏固流程，透過反思、合成與訓練將互動知識寫入權重；實驗顯示在十組開發會話中，壓縮三輪僅保留約36.8%知識，而夜間整合可達約80.4%，大幅提升程序性與專案記憶保存效果。

深度分析

Granite 4.0 3B Vision：以ChartNet、DeepStack與LoRA實現企業級文件視覺語言模型

Granite4.03B Vision由IBM團隊推出，聚焦企業文件與圖表的視覺語言理解。核心採用ChartNet合成資料與DeepStack多階層視覺注入，並以LoRA附加於Granite4.0 Micro維持模組化部署。其在圖表摘要、表格抽取與語義KVP任務上展現領先或接近最佳的表現，有助提升企業自動化文件處理的穩定性與效率。

速報

FullFlow：以參數高效方式把擴散模型變成雙向視覺—語言生成器

研究指出可將預訓練文本→影像擴散模型，透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭，保留影像在流空間的先驗，並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力，並降低顯存與加速推理。

深度分析

Prompt2Fingerprint：以 Text-to-Weight 生成器即時注入 LLM 指紋

在大規模語言模型廣泛散布下，模型來源與責任追溯成為關鍵。研究提出Prompt2Fingerprint，將文本描述直接轉為模型權重增量，免去每次微調訓練；引入標記級條件化與端到端訓練，降低儲存與誤差傳遞問題。實驗顯示可即時注入大量指紋，並維持準確性與健壯性，成為可擴展的所有權管理方案。減少部署延遲並節省大量計算資源。

深度分析

互動層水印：以 asking-back 行為提升 LLM 抗蒸餾可稽核性

面對透過 API 進行的未授權知識蒸餾，研究提出將水印移到互動層：透過系統提示間歇誘發追問、低密度變體或重述等行為標記，使被盜取的學生模型在回應行為上保留可查證跡象。

深度分析

PopuLoRA：以LoRA族群共演化與權重演化實現可驗證回報的後訓練

PopuLoRA在可驗證回報（RLVR）的後訓練場景，引入教師與學生的LoRA適配器族群：教師負責生成題目、學生在程式驗證器下求解，並以跨族群的TrueSkill交互評分把「難度」轉為族群信號。作者設計一組針對LoRA權重空間的突變與交配算子，可在秒級產生同秩子代，作為人口式訓練（PBT）的替換步驟；