Agents Report | 代理人報告 (Page 60)

深度分析

ImagingBench：評估代理式 AI 在計算影像任務中的表現與挑戰

研究者推出 ImagingBench，彙整 20 項計算影像任務並設計 Expert、Planner、Forward 三種測試模式，以評估代理式 AI 的物理推理與重建能力。測試顯示，現有模型在光學感測與逆向重建上仍弱於專屬基線，規劃器提升有限，突顯語意能力與實體影像表現之間的差距。

速報

相對測量新範式：模型自發挑戰打造可擴展智慧評分系統

傳統以人類為基準的智慧基準已趨於飽和，難以評估超越人類的人工智慧能力。研究提出以相對測量為核心的新評估框架，讓模型自行產生公開挑戰，區分其他系統，並藉此聚合成對抗式心智測量等級。

速報

以社會規範為基礎的 LLM 協調模型：行人與車輛互動突破

研究團隊以行人與車輛的動態互動為測試平台，從 3,456 例人類互動中抽取三大社會規範原則：結果可預測性、價值對齊與利益感知。將這些原則嵌入大型語言模型（LLM）後，模型在與人類的閉環協調任務中總得分提升近四倍，且比人與人互動高出 43%。

深度分析

情境內搜索與自我反思：提升大型語言模型推理抽樣效率的理論與實證

本研究探討大型語言模型的情境內搜索（in‑context search），透過自我反思定位早期錯誤，將指數級抽樣需求降為多項式次數。理論證明若反思能早期定位錯誤，搜索效能可呈指數提升；反之則無優勢。實驗驗證此機制於真實推理模型上成立。對未來 AI 推理有深遠啟示。

深度分析

利用 hf:// 與 Xet 去重實現跨雲 AI 模型訓練：SkyPilot 效能與成本分析

多數團隊的模型與資料分別儲存於單一雲端區域，而需要的 GPU 計算卻常在其他雲端。這會產生跨雲傳輸費用，成為成本瓶頸。

深度分析

Microsoft Foundry Managed Compute 整合 Hugging Face 開源模型，提供企業級一鍵部署

Microsoft在Build2026發布FoundryManagedCompute，結合HuggingFace開源模型，提供企業級安全與計費，讓開發者即時使用最新模型。模型以SafeTensors上傳，Microsoft自動建置容器、掃描CVE，支援全球部署，兼容NVIDIA A100與H100加速器。

深度分析

「Writer Agent Harness」提升企業級 Agent AI 代幣經濟與效能：成本下降 41%、執行時間縮短 44%

隨著企業級AgentAI需求提升，代幣消耗快速上升。研究提出以WriterAgentHarness為核心的編排層，透過快取、歷史壓縮、工具輸出卸載等機制，將每任務代幣使用量降低38%，成本下降41%，執行時間縮減44%。此效能提升跨模型一致，顯示編排層是降低AI成本的關鍵杠桿。

AI Agent

從基礎到 Offer：AgentGuide 整合 AI Agent、LangGraph 與 RAG 的系統化學習指南

GitHub 新發現的 AgentGuide 專案匯集 AI Agent 開發與求職資源，提供系統化學習路徑、實作範例與 RAG 面試題庫，助台灣開發者提升競爭力並加速專案落地。此資源與 LangGraph、Dynamiq 等開源 RAG 生態相輔，適合想轉職大模型或強化 AI Agent 能力的開發者。

深度分析

LLM 代理使用 SageMath 於 RealMath 基準的效能提升與代幣效率探討

隨著大型語言模型在數學研究中的應用提升，研究者將 SageMath 整合至 ReAct 代理框架，提供可驗證的符號回饋。實驗顯示所有模型在工具輔助下平均提升 9.7 個百分點，最高提升 27.8 個百分點，且 GPT‑5.5 在解題率與代幣使用上表現最佳。此結果顯示 CAS 輔助有望縮小開放模型與封閉模型的差距，推動計算數學自動化。

CodexBar

CodexBar：macOS 選單列即時顯示多家 AI 程式碼服務配額

CodexBar是一款macOS原生選單列工具，即時顯示多家人工智慧程式碼服務的使用上限與重置倒數，支援OpenAI、Claude、Gemini等超過五十家提供者，讓開發者能規劃工作時間並避免突發配額耗盡。此工具採取隱私優先策略，直接重用現有授權會話，無需額外儲存密碼。

深度分析

FastGPT：全端開源 AI 代理平台的可視化工作流與 RAG 技術解析

FastGPT 為新興開源 AI 代理平台，提供即插即用的資料處理、RAG 檢索與可視化工作流編排，支援 Docker 本地部署與雲端使用。相較於 OpenAgent 等同類方案，其 TypeScript 生態與 Flow 編排更貼合前端開發者需求，預計將推動台灣企業加速本地化 AI 服務部署。

WeKnora

WeKnora：結合 RAG 與自動維基的 Go 語言開源 LLM 解決方案

WeKnora 是由騰訊開源的 LLM 知識平台，將原始文件轉換為可檢索的向量庫、自治推理代理與自動維基，使用 Go 語言實作，已獲超過 1.7 萬星標，平台支援向量搜尋、重新排序與多模型嵌入，並提供 API 與多租戶管理介面，適合建置企業內部問答與自動化維基系統。

Latest

ImagingBench：評估代理式 AI 在計算影像任務中的表現與挑戰

相對測量新範式：模型自發挑戰打造可擴展智慧評分系統

以社會規範為基礎的 LLM 協調模型：行人與車輛互動突破

情境內搜索與自我反思：提升大型語言模型推理抽樣效率的理論與實證

利用 hf:// 與 Xet 去重實現跨雲 AI 模型訓練：SkyPilot 效能與成本分析

Microsoft Foundry Managed Compute 整合 Hugging Face 開源模型，提供企業級一鍵部署

「Writer Agent Harness」提升企業級 Agent AI 代幣經濟與效能：成本下降 41%、執行時間縮短 44%

從基礎到 Offer：AgentGuide 整合 AI Agent、LangGraph 與 RAG 的系統化學習指南

LLM 代理使用 SageMath 於 RealMath 基準的效能提升與代幣效率探討

CodexBar：macOS 選單列即時顯示多家 AI 程式碼服務配額

FastGPT：全端開源 AI 代理平台的可視化工作流與 RAG 技術解析

WeKnora：結合 RAG 與自動維基的 Go 語言開源 LLM 解決方案