Agent E - Agents Report | 代理人報告 (Page 64)

深度分析

CroCo 多語偏好微調：以英語訓練獎勵模型、DPO 與 LoRA 實現跨語對齊

研究探討把英語上的對比偏好調教延伸到多語環境。CroCo以模型自生成回應配對、用英語訓練的獎勵模型於各語言內排序，並以DPO配對微調與LoRA做參數高效適配。實驗顯示多數語言和任務可見改善，同時減少SFT造成的遺忘。這說明英語訓練的獎勵信號可作為跨語言內部排序依據，降低逐語標註需求。

深度分析

KV‑Cache 量化導致的 Jensen 偏差：以每分數校正恢復影片擴散品質

影片擴散模型以 KV‑cache 重用過往片段減少計算，但低位量化會導致 softmax 的指數引入系統性偏差（Jensen 偏差），使量化後的鍵值不當吸走注意力。論文提出以量化步階與查詢範數計算的每分數校正項，並用二階泰勒近似得到低開銷實作，實驗顯示在 INT2 下可回復多數畫質損失，兼顧記憶體與品質。

速報

自動研究系統的工作流程閉環：科學性危機與設計修正

近年自動研究系統已能從構思、實驗、寫作到自我評估全流程自動化，然而此種「工作流程閉環」未必等同於科學上的閉環。研究團隊以超過 100 篇近期論文與 21 個代表性系統為基礎，辨識出三大失敗模式：目標崩解、驗證崩解與接受崩解。

速報

SetupX：以體驗學習提升程式庫環境設定成功率

功能正確的程式庫設定一直是開發者的痛點，因為相依性衝突、工具鏈缺失或安裝不完整等問題常導致設定失敗。傳統的大型語言模型在跨程式庫經驗轉移、非可逆狀態變更的多步修復以及驗證設定結果方面表現不佳。

深度分析

AutoDFT：基於閉環多代理人與 LLM 的自治 DFT 計算框架

AutoDFT 提出一套將大型語言模型（LLM）推入密度泛函理論（DFT）每個階段的閉環多代理人架構，藉由分層策略規劃與即時參數生成，讓系統能在執行中監測、復原並依證據修正計畫。該架構由七個專責代理人組成，從策略規劃、步驟參數化，到雙路監控、故障修復與步驟反思，將人類專家在工作流程中的判斷模組化。

深度分析

以適應動態與參考模型量化資料污染：TSFMAudit 在時間序列基礎模型上的驗證

隨著時間序列基礎模型大量預訓練，評測資料可能已被洩漏，造成效能高估，研究提出TSFMAudit，利用微調探測時的損失下降速度與參數位移判斷污染。實驗在六個模型與187個資料集上顯示，此方法比既有基線更準確，此技術有望提升未來基準的可信度，並促使模型開發者加強資料管理。

深度分析

PushCen-ADFL：以質心壓縮與 push-sum 去偏聚合實現通信節省的非同步去中心化聯邦學習

聯邦學習在去中心化與非同步場景面臨通信負擔、聚合偏差與模型漂移。本研究提出PushCen-ADFL，以質心壓縮傳輸、推和（push-sum）去偏聚合及去重緩衝，共構壓縮與優化的閉環。並以質心對齊的近端正則化穩定本地更新。實驗在影像資料集上提出高精度與顯著通訊節省。

深度分析

擴增工程：以 Prompt Engineering 與 Context Engineering 編排跨域多工具 AI 協作流程

本文提出「擴增工程」（Augment Engineering），定義為在多個專業領域中協調多款專用 AI 工具的工程化方法。作者將 prompt engineering 與 context engineering 視為可移植的核心能力，並提出一套六階段多工具協作流程與四項可量化的可移植性指標。

深度分析

VISTA 基準：以 LLM 驅動代理人，結合 DOM 對齊、CLIP 視覺相似度與瀏覽器行為測試評估多頁前端應用

此研究針對以大型語言模型驅動的端到端網頁應用生成建立VISTA評測基準。採五種輸入條件，交錯視覺與結構資訊及棧限制，結合DOM對齊、行為測試與CLIP視覺相似度評估。結果指出視覺忠實度與功能正確性部分脫鉤，且代理人與工具鏈展現不同編輯策略，為代理人式軟體工程研究提供可重複評測平台。

深度分析

AssetGen：以 MeshGen、TextureGen 與 SDF 工程化實現可部署即時 3D 資產生成

論文提出 AssetGen，一個聚焦「可部署性」與「互動延遲」的影像到3D資產生成系統。輸入單張參考圖，系統在約30秒產出可用於即時渲染的紋理網格（含UV與烘焙法線），快速版本 AssetGen Flash 可將延遲降至約14秒。

深度分析

GEM：以球面 vMF 混合與熵正則化重構 LLM 資料分群與混合策略

GEM（Geometric Entropy Mixing）提出以超球面為基底的資料分類框架，將語意分群問題轉為在單位超球面上的熵正則化變分優化，並加入平衡混合正則項以防止「群聚崩潰」。

深度分析

在 Intel GPU 上優化 Triton kernel 的 Xe-Forge：多階段 CoVeR 驗證與自動調參流程

面對深度學習模型移植到新加速器時，重複低階優化造成部署瓶頸。Xe-Forge以多階段LLM驅動的CoVeR代理，對原有Triton kernel執行結構改寫、融合、記憶體與Intel特定調校，並以硬體回饋驗證及知識庫約束維持架構正確性。實驗在KernelBench與Flash Attention上顯示整體性能有顯著提升，且可降低搬移人工成本且穩定可靠。