Agent E - Agents Report | 代理人報告 (Page 90)

深度分析

主題層級多臂賭場：用 QE 高效找出機器翻譯困難樣本

為了在大規模網路語料中發現對機器翻譯模型真正具挑戰性的測試例，研究將「主題」抽象成多臂賭場中的「臂」，並以有限計算預算反覆抽樣、翻譯與品質估計來量化每個主題的難度。

深度分析

量化 RLVR 稅：評測預算、資料污染與可靠性修正

研究背景：RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法：文章檢視預算匹配、偏提示污染與評分穩定性，並提出分項獎勵與稅意識訓練協議，包含校準拒答與審核溯源。主要影響：在嚴格對照下，若干號稱的推理增益會收斂或消失，建議以更健全的評估與報告標準保留實用收益同時降低風險。

深度分析

Llama-3.1 量化實證比較：W8A8-FP、W8A8-INT 與 W4A16-INT 的準確度與效能評估

研究比較W8A8-FP、W8A8-INT與W4A16-INT三種量化格式在學術與實務基準的準確度與推論效能；採用自動化評測、文本相似度分析與vLLM在多款GPU的延遲量測；結果發現W8A8-FP近乎無損，W8A8-INT衰減輕微，W4A16在同步部署成本效益最佳。

深度分析

GraphMind：以動作為中心的流程自動化與自適應遍歷強化（ATR）

GraphMind 將大量工程師的實際操作紀錄轉為可執行的動作導向流程圖，串聯離線抽取、線上多代理遍歷與自適應強化三大機制，達成零人工撰寫的端到端自動化。系統以行動（Action）為核心單位，透過 LLM 抽取與向量檢索建構輕量圖結構，線上由多代理在圖上探索與執行，並以類蟻群啟發的強化與衰減機制讓成功路徑獲得增強、陳舊路徑自然消退。

深度分析

在 Kleisli 範疇與 itree 下形式化治理：Coq 驗證與 BEAM 實測

本文提出以Coq機械化證明為核心的結構化治理理論，對認知工作流程系統形式化治理安全性進行嚴密證明。研究結合交互樹、參數化共歸納與Kleisli範疇等技術，證明治理在多層元遞歸塔中保持不變，並以四項原語（程式、推理、記憶、呼叫）達到表達完整性。研究並以驗證直譯器連結執行環境，經大量隨機測試未見不一致。

深度分析

從歸因到介入：在 CLIP 上以 Activation×Gradient 與激活操控實作模型除錯

研究提出一套將歸因分析（SAE-based attribution）與激活操控結合的互動式工作流程，並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。

深度分析

Qrita：在 GPU 上以高斯σ截斷與四元樞軸搜尋加速 Top-k／Top-p 選取

Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作，但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p，採用兩大技術：一是基於高斯分布的 σ 截斷，先行縮減候選空間；

深度分析

LangGraph 與 GraphRAG：以人工智慧代理自動將遺留 Fortran 有限差分程式轉譯為 Devito

在高效能科學運算中，維護大量Fortran遺留有限差分程式面臨困境。本研究以LangGraph結合GraphRAG與知識圖譜，採多階段RAG檢索與靜態程式碼分析導出檢索策略，並以Pydantic約束與LLM評估驗證，將程式自動轉譯為Devito，提高轉譯可靠性與可驗證性。

深度分析

XGrammar 2：以 TagDispatch、Earley 解析與 JIT 編譯優化動態結構生成

面對工具呼叫與條件化結構輸出需求，XGrammar2透過TagDispatch標籤分發、JIT即時編譯與跨文法快取，減少遮罩生成與預處理成本；實驗顯示性能顯著優於既有引擎，且可近乎零延遲整合至推理流程。有助於模型在代理任務中更可靠地輸出結構化結果與工具呼叫。

深度分析

LEC：以線性期望約束在有限樣本下控制錯誤發現率的選擇性預測與雙模型路由

大型語言模型常在關鍵應用產生錯誤回答，傳統不確定性量表無法提供明確風險上限。本文改寫自 arXiv 提案 LEC（Linear Expectation Constraints），將選擇性預測重新詮釋為受限決策問題，以「線性期望約束」針對選擇與錯誤兩個二元指標建立統計約束。

Lanai Token Tuner

企業 AI 成本優化新工具：Lanai 的 Token Tuner 讓代幣支出對應可衡量成果

企業出現以代幣使用量衡量生產力的tokenmaxxing現象，導致成本膨脹且難以對應商業成果。Lanai推出Token Tuner，將代幣花費映射到工作流程與模型選擇，依據實際使用結果評估效率並提出降費建議。此法有助企業把焦點從代幣數量移回可衡量的產出，有機會降低浪費並提升投資效益。

深度分析

DataGrail：63.6% 廠商 DPA 未揭露第三方 AI 子處理者

DataGrail 在其《Privacy and AI Trends Report 2026》中，分析 2,400 家商用軟體供應商，指出多數標榜具備人工智慧功能的廠商，未於資料處理協議（DPA）披露第三方 AI 子處理者。