Agents Report | 代理人報告 (Page 48)

Claude Code

Claude Code 兼容的 production‑ready AI 技能套件「awesome‑skills」概覽

awesome-skills是一套針對Claude Code設計的production‑ready AI技能集合，提供設計原理、量化評估與黃金測試樣本，並可直接整合至CI/CD與安全審查流程，提升開發效率與程式碼品質。該庫共提供51項可安裝技能，並附有64份量化評估報告與376個黃金測試固定檔。

深度分析

評估大型語言模型長程規劃能力：Long‑Horizon‑Terminal‑Bench 與實驗結果

研究推出 Long‑Horizon‑Terminal‑Bench，收錄 46 項跨九大類的長程終端任務，採用子任務密集獎勵機制，讓代理人在完成最終目標前即可獲得部分分數。測試 15 種前沿模型發現，最高通過率僅 15.2%，顯示長程執行仍是主要挑戰與瓶頸。

ezdata

ezdata：AI 原生資料平台整合異構資料與 RAG 能力全解析

ezdata是一套以Python為基礎的AI原生資料平台，支援多種異構資料源的接入與ETL整合，內建任務排程、RAG知識庫與AI分析功能，提供多租戶與RBAC管理，讓使用者可在本機或雲端快速建立資料驅動的AI應用。同時支援Elasticsearch向量檢索與多種連接器，適合企業構建AI工作流。

深度分析

GATS：圖增強樹搜尋結合分層世界模型的高效 LLM 代理人規劃

大型語言模型在多步規劃中面臨成本與不確定性挑戰。研究提出GATS結合UCB1樹搜尋與三層世界模型，省去規劃期間的LLM呼叫，達到100%成功率。相較於LATS每任務約37次LLM呼叫，GATS免除呼叫且計畫零變異。在12項挑戰測試中，GATS同樣維持100%成功。

深度分析

「CogniConsole」：透過推理時控制提升大型語言模型可靠性

隨著大型語言模型廣泛應用，可靠性傳統被視為模型能力問題。研究提出 CogniConsole，將推理時控制外部化為結構化介面，結合程式化協調與受限提示推理。實驗顯示在相同模型下，提升結構化程度可顯著降低輸出變異與失敗率，此方法挑戰僅靠擴大模型規模提升可靠性的觀點，並為未來 AI 代理系統的設計與評估提供新方向。

Deep Code CLI

Deep Code CLI 完整解析：在終端整合 DeepSeek‑V4 的 AI 編碼助手

Deep Code CLI 是一款專為 DeepSeek‑V4 模型設計的終端 AI 編碼助手，支援思考模式、推理強度控制與 Skills 擴充，透過上下文快取降低成本，提升開發者在長序列互動與工具鏈整合上的效率，此工具亦可與 VSCode 外掛共享設定，並支援多模型與 MCP 整合，為開發者提供靈活的代理式工作流程。

RepoBrain

RepoBrain 結合 Model Context Protocol 打造程式碼知識圖譜，提升 AI 代理人理解力

隨著 AI 程式碼代理人普及，如何讓模型精準理解大型專案結構成為關鍵。開源專案 RepoBrain 透過 Model Context Protocol 伺服器架構，將程式碼庫轉化為 AI 可理解的知識圖譜，支援與 Claude Code 與 Cursor 等工具整合。此方案能有效解決傳統 RAG 在處理複雜程式碼時的上下文缺失問題，讓 AI 代理人能更精準地進行分析與問答，顯著提升開發者的開發效率。

深度分析

「ParallelepipedoNN」利用格路徑遍歷提升 MLP 對抗樣本魯棒性形式化驗證

針對人工智慧安全中的對抗魯棒性問題，本研究提出 ParallelepipedoNN 框架，將多層感知器的驗證過程轉化為格路徑遍歷問題。透過定義健全與完整認證，並利用格遍歷算子進行迭代精煉，該系統能精確計算出最大健全與最小完整區間。研究結果顯示，此方法能克服傳統凸鬆弛方案的低精準度問題，並為魯棒性優化提供非平凡解的決定性保證。

深度分析

DeepSeek 降價背後：AI Agent 造成的 Token 放大效應與成本挑戰

DeepSeek V4-Pro 模型大幅降價 75% 卻未能緩解企業 AI 成本壓力，主因在於 AI Agent 運作時會產生 100 倍以上的 Token 放大效應。透過複雜的規劃、檢索與工具調用循環，單一請求的 Token 消耗量可達 1:700 比例。這導致傳統按座席計費的 SaaS 模式失效，高價值用戶反而導致毛利下降，企業必須透過編排層技術優化成本管理。

深度分析

NVIDIA 推出單卡一天完成的領域專用嵌入模型微調流程，提升 RAG 檢索效能

通用嵌入模型常在處理企業專業文件時失效，導致 RAG 系統檢索精度不足。NVIDIA 推出一套微調流程，利用 LLM 自動生成合成問答對並挖掘硬負樣本，同時引入多跳查詢以強化複雜語意推理。該方案僅需單張 GPU 在一天內即可完成訓練，實測可提升 Recall@10 與 NDCG@10 逾 10%，顯著優化專業領域的檢索效能。

深度分析

IBM 推出 Granite 4.0 3B Vision 企業文件多模態視覺語言模型

IBM於2026年發表Granite4.03BVision，針對企業文件的表格、圖表與鍵值對進行深度視覺語言解析。模型結合ChartNet合成圖表資料與DeepStack視覺特徵注入，提升精準度。測試顯示在圖表與表格基準上領先同類模型，預計加速企業文件自動化流程。

深度分析

Falcon Perception 以早期融合 Transformer 重塑視覺語言模型效能

FalconPerception以0.6億參數的早期融合Transformer取代傳統視覺管線，透過混合注意力遮罩同時處理影像與文字，於SA‑Co基準取得68.0Macro‑F1，並推出PBench診斷測試與0.3億參數的FalconOCR，顯示單模型可同時支援分割與文件辨識。

Latest

Claude Code 兼容的 production‑ready AI 技能套件「awesome‑skills」概覽

評估大型語言模型長程規劃能力：Long‑Horizon‑Terminal‑Bench 與實驗結果

ezdata：AI 原生資料平台整合異構資料與 RAG 能力全解析

GATS：圖增強樹搜尋結合分層世界模型的高效 LLM 代理人規劃

「CogniConsole」：透過推理時控制提升大型語言模型可靠性

Deep Code CLI 完整解析：在終端整合 DeepSeek‑V4 的 AI 編碼助手

RepoBrain 結合 Model Context Protocol 打造程式碼知識圖譜，提升 AI 代理人理解力

「ParallelepipedoNN」利用格路徑遍歷提升 MLP 對抗樣本魯棒性形式化驗證

DeepSeek 降價背後：AI Agent 造成的 Token 放大效應與成本挑戰

NVIDIA 推出單卡一天完成的領域專用嵌入模型微調流程，提升 RAG 檢索效能

IBM 推出 Granite 4.0 3B Vision 企業文件多模態視覺語言模型

Falcon Perception 以早期融合 Transformer 重塑視覺語言模型效能