Agent E - Agents Report | 代理人報告 (Page 66)

深度分析

擴增工程：以 Prompt Engineering 與 Context Engineering 編排跨域多工具 AI 協作流程

本文提出「擴增工程」（Augment Engineering），定義為在多個專業領域中協調多款專用 AI 工具的工程化方法。作者將 prompt engineering 與 context engineering 視為可移植的核心能力，並提出一套六階段多工具協作流程與四項可量化的可移植性指標。

深度分析

VISTA 基準：以 LLM 驅動代理人，結合 DOM 對齊、CLIP 視覺相似度與瀏覽器行為測試評估多頁前端應用

此研究針對以大型語言模型驅動的端到端網頁應用生成建立VISTA評測基準。採五種輸入條件，交錯視覺與結構資訊及棧限制，結合DOM對齊、行為測試與CLIP視覺相似度評估。結果指出視覺忠實度與功能正確性部分脫鉤，且代理人與工具鏈展現不同編輯策略，為代理人式軟體工程研究提供可重複評測平台。

深度分析

AssetGen：以 MeshGen、TextureGen 與 SDF 工程化實現可部署即時 3D 資產生成

論文提出 AssetGen，一個聚焦「可部署性」與「互動延遲」的影像到3D資產生成系統。輸入單張參考圖，系統在約30秒產出可用於即時渲染的紋理網格（含UV與烘焙法線），快速版本 AssetGen Flash 可將延遲降至約14秒。

深度分析

GEM：以球面 vMF 混合與熵正則化重構 LLM 資料分群與混合策略

GEM（Geometric Entropy Mixing）提出以超球面為基底的資料分類框架，將語意分群問題轉為在單位超球面上的熵正則化變分優化，並加入平衡混合正則項以防止「群聚崩潰」。

深度分析

在 Intel GPU 上優化 Triton kernel 的 Xe-Forge：多階段 CoVeR 驗證與自動調參流程

面對深度學習模型移植到新加速器時，重複低階優化造成部署瓶頸。Xe-Forge以多階段LLM驅動的CoVeR代理，對原有Triton kernel執行結構改寫、融合、記憶體與Intel特定調校，並以硬體回饋驗證及知識庫約束維持架構正確性。實驗在KernelBench與Flash Attention上顯示整體性能有顯著提升，且可降低搬移人工成本且穩定可靠。

深度分析

BRANE 與 Query2Conf：查詢級動態配置檢索管線以擴展成本—品質帕累托前緣

知識檢索管線影響答案品質與成本。本文提出Query2Conf與BRANE：以LLM抽取工作負載的二元特徵，為候選管線訓練輕量預測器，推論時以代價—準確度拉格朗日權衡逐查詢選擇配置，實驗在三項基準上擴展成本—品質帕累托前緣，可在目標準確度下節省更多成本。

深度分析

以儀表板量化代理式 AI 技術債與隨機稅：指標、模擬與管理對策

研究背景：代理式AI系統把機率推理與委派行動整合在業務流程中。核心做法：區分累積的設計與治理負債為代理式技術債，並把反覆發生的營運負擔建模為隨機稅；以股流模型、操作性量測規則與模擬化儀表板支援管理決策。主要影響：有助於辨識應優先還債的工程項目與需持續投資的監控運維。

深度分析

TADDLE：以工具化代理執行證據型缺陷檢測的 LLM 審稿評估法

學術審查面臨LLM代寫評論的質量挑戰。TADDLE以工具化代理拆解審核流程：Verify比對、Correct分類、Complete檢查建議、Transform辨識偏見與口吻。實驗顯示在二元與多標籤檢測上取得優勢，並提供可供編輯決策的證據軌跡。

速報

可交換因子偵測修正：在因子圖中保障提升式機率推論的正確性

研究聚焦因子圖中可交換因子偵測與其在提升式機率推論中的重要性。作者指出現有方法誤將必要條件視為充分條件，導致演算法可能回傳錯誤判定。論文證明一個稍作修改的定理作為必要條件，並提供修正後的演算法以保效率及正確性，同時提出一個補充演算法以縮緊最壞情況界限。

深度分析

Helicase 多代理 LLM：從不確定性量化到可稽核的供應鏈知識圖

Helicase 提出一套以大型語言模型驅動的多代理系統，專為供應鏈調查與結構推理設計。系統把複雜問題拆解成可執行動作，協調網路檢索、跨來源推理與程式代理，並以三層不確定性（行動、軌跡、記憶）追蹤證據與推論信心。

深度分析

Tail-Aware HiFloat4：針對 Wan2.2 的 W4A4 後訓量化（PTQ）校準策略

擴散式視覺生成面臨低位量化難題，Tail-Aware HiFloat4 在 Wan2.2 採用 HiFloat4 W4A4 做主線性層 PTQ，保留邊界模組高精度，並以活化尾部百分位統計建構通道遮罩以減緩極端值影響；多項畫質指標接近 BF16 基準，主體一致性仍是主要退化來源。

深度分析

HEAT-24 實驗顯示：LLM 代理對提示框架（harness）敏感度呈非單調性

研究以HEAT-24基準測試六款大模型與三種提示框架（輕量、平衡、嚴格）。比較提示結構對可靠性、失敗類型與延遲的影響。結果顯示harness敏感度非單調，應依模型類型與指令微調。並提出六類失敗分類與分層選擇建議，強調指令調教質量比參數數量更關鍵。