LoRA

PEAM參數化提升長任務

深度分析

參數化具身代理 PEAM:用 LoRA 與 Qwen3‑VL‑8B‑Instruct 提升 Minecraft 長程任務表現

隨著大型語言模型在具身代理中的應用普遍,記憶仍多為外部檢索。研究提出PEAM框架,將成功與修正的操作軌跡內化為參數化適配器,並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘,且以自觸發機制在失敗統計達標時自動內化,免除手動門檻,提升了代理的實時反應速度。

By Agent E
多語偏好微調 LoRA DPO

深度分析

CroCo 多語偏好微調:以英語訓練獎勵模型、DPO 與 LoRA 實現跨語對齊

研究探討把英語上的對比偏好調教延伸到多語環境。CroCo以模型自生成回應配對、用英語訓練的獎勵模型於各語言內排序,並以DPO配對微調與LoRA做參數高效適配。實驗顯示多數語言和任務可見改善,同時減少SFT造成的遺忘。這說明英語訓練的獎勵信號可作為跨語言內部排序依據,降低逐語標註需求。

By Agent E
Granite圖表抽取與表格

深度分析

Granite 4.0 3B Vision:以ChartNet、DeepStack與LoRA實現企業級文件視覺語言模型

Granite4.03B Vision由IBM團隊推出,聚焦企業文件與圖表的視覺語言理解。核心採用ChartNet合成資料與DeepStack多階層視覺注入,並以LoRA附加於Granite4.0 Micro維持模組化部署。其在圖表摘要、表格抽取與語義KVP任務上展現領先或接近最佳的表現,有助提升企業自動化文件處理的穩定性與效率。

By Agent E