AI 代理 - Agents Report | 代理人報告

深度分析

NEWSAGENT 基準測試：AI 代理在真實新聞寫作中的搜尋與編輯能力評估

本研究提出 NEWSAGENT，一個專為評估多模態 AI 代理在真實新聞寫作任務中表現的基準測試。該基準包含 6,237 個由真實新聞文章經人工驗證的範例，將新聞寫作流程拆解為時序感知搜尋與內容編輯兩項核心功能。研究發現，當前 AI 代理雖能有效檢索相關事實，但在規劃敘事結構與整合資訊方面仍顯不足，與人類記者存在明顯差距。

Infographic showing enterprise AI agent infrastructure bottlenecks and platform solutions.

深度分析

AI 代理效能瓶頸：Kubernetes、模型與上下文獨立性在企業基礎建設的挑戰與解法

LinkedIn、Walmart、Zendesk三大企業發現AI代理效能受限於傳統基礎建設，透過預配置容器、內部治理閘道與強化資料管線等方式提升速度，同時推動模型與上下文獨立化，預示企業未來將更倚賴自建平台而非僅依賴雲端供應商，並加速跨部門協作與安全合規。

Spec Kit ZH

Spec Kit ZH：規格驅動開發工具鏈以 Python 加速 AI 代理程式碼產出

SpecKitZH以中文規格驅動開發為核心，提供Python套件與CLI，支援Codex、Claude Code等AI編碼代理，讓開發者可在數分鐘內完成需求到實作的全流程，提升本地化開發效率。此專案以MIT授權釋出，GitHub累積263顆星，提供安裝指令與上手流程，適合本地化開發團隊導入。

Imaging-101 benchmark evaluating LLMs on computational image reconstruction pipelines.

深度分析

全面評估 LLM 在計算影像重建的表現：Imaging-101 基準平台概覽

Imaging-101 以57項經專家驗證的計算影像任務，將流程標準化為前處理、物理建模、逆向求解與視覺化三階段，評估七大前沿LLM在規劃、單元測試與端到端重建三條軌道的表現，結果顯示模型在物理慣例與演算法選擇上仍有缺口，預示未來需專屬領域代理人才能可靠支援計算影像。

Infographic defining AI Agent architecture: Model, Scaffolding, and Harness components.

深度分析

AI 代理核心術語：Harness、Scaffold 與模型完整解析

隨著AI代理快速發展，術語混亂；本文釐清model、scaffold、harness、agent等概念，說明它們在訓練與推論的分工，並指出正確用詞有助於系統設計與跨框架溝通，預期將推動更一致的開發與評估流程。比ClaudeCode、Codex框，說明harnessengineering企業AI代理自動化關鍵。

深度分析

AI 代理的 Paper‑replication 流程全解析：從目標證據到完整再現

隨著 AI 代理在科研領域崛起，Paper‑replication 工作流被設計用於自動再現科學機器學習論文。它將論文聲稱拆解成目標，記錄方法、執行實驗、比對結果，並以工作空間與驗證檢查作為完成依據。實驗顯示四篇論文的158項聲稱全部在工作空間內得到匹配，證明此流程可提升再現性與審核可靠度。

深度分析

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理

隨著 AI 代理融入作業系統，筆電端 SoC 的能效推理成為關鍵。研究團隊推出 STEEL，首個針對 XDNA NPU 的開源 FlashAttention 實作，透過三階段資料流管線與稀疏感知配置，解決因果遮罩導致的運算不均問題。實驗顯示，STEEL 在 AMD Ryzen AI 9 HX 370 上能耗較 CPU 降低 9.17 倍，較 GPU 降低 1.75 倍，大幅提升長序列推理效率。

深度分析

從 AI Skillstore 到四大平台：軟體工程技能的分布、評估與安全機制

AI代理技能市場快速成長，將軟體工程活動封裝為可重用技能。研究收集11,497件技能，發現開發類占比最高，評估機制多聚焦安全與實用性，且不同平台分類差異明顯。此趨勢預示未來開發者將更依賴技能生態，影響AI產業與軟體開發流程。同時，安全審查與版本管理仍是挑戰。

Storedge-MCP

Storedge-MCP：利用 Model Context Protocol 簡化自助倉儲 API 與 AI 代理整合

StorEdge 為超過五千家自助倉儲提供核心管理 API，Storedge‑MCP 以 Model Context Protocol 讓 AI 代理直接讀寫租客、單位與帳務。開發者只需 pip 安裝並設定環境變數，即可在本機呼叫 26 種工具函式。此服務加速自動化流程，同時提出資安治理新課題。

desktop-touch-mcp

「desktop-touch-mcp」：基於 Rust UIA 引擎的 Windows 桌面 AI 代理新方案

Desktop‑Touch‑MCP 在 GitHub Trending 中快速竄升，提供 Windows 桌面語意 discover‑then‑act 自動化。它使用 Rust UIA 引擎在 2 毫秒內完成焦點查詢，並加入每次操作感知防護，避免錯誤視窗輸入。此專案讓 AI 代理能安全、快速地控制本機應用程式，提升本地自動化效能。

AI 代理

Auto‑Empirical Research Skills (AERS)：超過 2.3 萬條 Stata AI 代理技能的實證研究資源庫

GitHub 上的 Auto-Empirical Research Skills (AERS) 由斯坦福 REAP 與 CoPaper.AI 合作打造，彙集超過 23,000 條 AI 代理技能，涵蓋經濟、政治、心理等八大社會科學領域。

Learn‑LikeCC

Learn‑LikeCC：開源逆向 Claude Code 全方位教學平台解析（TypeScript 實作）

Learn‑LikeCC專案在GitHub上公開，提供ClaudeCode源碼逆向、可執行復刻與教學課程。透過TypeScript原始碼、SourceMap與LoopLab仿真，讓開發者探索AgentHarness、MCP與模型切換機制。此專案有望加速本地AI代理研究與教育應用。