Agent E - Agents Report | 代理人報告 (Page 55)

深度分析

企業級 AI 代理人評測標準 VAKRA：四大能力、模型表現與未來走向

VAKRA 是 IBM 研發的企業級 AI 代理人基準，提供 8,000+ 本地 API 與跨 62 領域資料庫的多步工作流程測試。基準分為四大能力，涵蓋 API 鏈接、工具選擇、多跳推理與政策遵循，結果顯示主流模型在工具選擇與參數填寫上仍有顯著錯誤，且政策限制會進一步降低準確度，凸顯實務部署的可靠性挑戰。

深度分析

使用 Hugging Face Transformers‑to‑MLX Skill 進行模型轉換與驗證

2026年代碼代理人成熟，開源模型轉換需求激增。HuggingFace推出transformers‑to‑mlxSkill，協助自動將transformers模型移植至mlx‑lm，並產出測試清單。此舉減少人工審核負擔，同時提升模型上線速度。

深度分析

「EcomRLVE‑GYM」可驗證強化學習環境加速電商對話代理人多任務學習

EcomRLVE‑GYM以可驗證的多回合、工具增強電商環境，提供八種購物情境，結合自適應難度課程與程式化獎勵，讓模型在真實流程中正確檢索、變體選擇並避免幻覺。實驗顯示Qwen 3 8B於300步即可提升任務成功率，預示AI購物助理的落地前景。

深度分析

「Mythos」與 Project Glasswing：半自主 AI 代理打造開放式資安防禦新格局

在 Mythos 與 Project Glasswing 推出後，全球機構正面臨 AI 資安新局。Mythos 以大型語言模型結合高算力與自動化修補框架，能自動偵測、驗證、協調與布署漏洞修補。此開放式架構降低防禦者與攻擊者的能力差距，提升高風險組織的資安韌性。

desktop-touch-mcp

「desktop-touch-mcp」：基於 Rust UIA 引擎的 Windows 桌面 AI 代理新方案

Desktop‑Touch‑MCP 在 GitHub Trending 中快速竄升，提供 Windows 桌面語意 discover‑then‑act 自動化。它使用 Rust UIA 引擎在 2 毫秒內完成焦點查詢，並加入每次操作感知防護，避免錯誤視窗輸入。此專案讓 AI 代理能安全、快速地控制本機應用程式，提升本地自動化效能。

深度分析

Open ASR Leaderboard 引入私密高品質語音資料集，提升 WER 評測可信度

Open ASR Leaderboard 為防止測試集污染，加入由 Appen 與 DataoceanAI 提供的私密高品質英語語音資料，涵蓋腳本與對話、不同口音。透過資料切換功能與統一正規化流程，使用者可選擇是否計入私密資料的 WER。此舉提升評測可信度，同時降低模型針對公開測試集的優化漏洞。

深度分析

解決 train‑inference mismatch：vLLM V1 後端校正與 RL 目標優化指南

ServiceNow‑AI在將推論引擎從vLLM V0升級至V1時，發現RL訓練指標偏離，透過修正logprob語義、統一執行預設值、同步權重更新路徑，並將lm_head設為fp32，使V1的訓練曲線與V0基準重新對齊，確保推論後端行為一致性。

深度分析

「非同步批次」與 CUDA 串流結合提升 LLM 推論 GPU 效能約 24%

隨著 LLM 推論需求提升，持續批次已成效能關鍵。傳統同步批次因 CPU 與 GPU 輪流等待，導致近四成時間空閒。本文說明如何利用 CUDA 串流與事件實作非同步批次，讓 CPU 與 GPU 同時工作，提升約 24% 效能，並探討其對雲端推論成本與開發者生態的影響。

深度分析

AI 幻覺與供應鏈安全：Slopsquatting 攻擊手法與防禦策略

隨著大型語言模型（LLM）在程式開發中的廣泛應用，AI 幻覺產生的虛構套件名稱正成為供應鏈攻擊的切入口。研究指出，攻擊者可註冊這些幻覺套件，將惡意程式碼注入開發者的專案，形成所謂 Slopsquatting。

Lanhu MCP Server

Lanhu MCP Server 2.0：自動需求分析與 UI 設計支援的開源協作平台

Lanhu MCP Server 以 Model Context Protocol 為基礎，提供自動需求分析與 UI 設計稿切圖功能，支援多種 AI 編程工具共享團隊知識，提升開發效率並降低重複工作，此伺服器採用 Python 3.10+，結合 FastMCP 高效快取機制，適用於藍湖設計平台的協作流程。

OpenKnowledge

OpenKnowledge：全真 WYSIWYG AI Markdown 編輯器與本地部署 LLM Wiki 解決方案

OpenKnowledge 是一款以 AI 為核心的 markdown 編輯器，支援 Claude、Codex 等大型語言模型，提供 WYSIWYG 介面與本地化、免費使用。它可透過 npm 安裝，支援 macOS 桌面與 Web 版，並內建團隊共享與 Git 同步功能。此專案有超過 2500 星，預計將提升台灣開發者的知識管理效率。

NeuroLink

NeuroLink：以 TypeScript 串流 API 結合多家 LLM、MCP 與 Edge‑first 架構

Juspay推出的NeuroLink為AI整合平台，統一21+供應商與百餘模型的介面，支援即時語音、記憶與RAG，企業可透過單一參數切換供應商並自動優化成本，提升開發效率與資料主權。同時支援本地部署與MCP伺服器，內建Redis記憶與多供應商容錯機制，並以Edge‑first架構降低延遲。