代理式 AI - Agents Report

深度分析

ImagingBench：評估代理式 AI 在計算影像任務中的表現與挑戰

研究者推出 ImagingBench，彙整 20 項計算影像任務並設計 Expert、Planner、Forward 三種測試模式，以評估代理式 AI 的物理推理與重建能力。測試顯示，現有模型在光學感測與逆向重建上仍弱於專屬基線，規劃器提升有限，突顯語意能力與實體影像表現之間的差距。

Claude Sonnet 5 infographic: Mid-tier agentic AI, high performance, low cost.

深度分析

Anthropic 發布 Claude Sonnet 5：近旗艦效能的中階代理式 AI 並大幅降低成本

Anthropic於2026年推出ClaudeSonnet5，提供接近旗艦Opus效能的中階模型，價格遠低於高階方案，強化代理式AI完成度與安全性，同時在IPO前提升企業採用與營收預期。新模型使用更新分詞器，可能使 token 數增至 1.0‑1.35 倍，企業需自行測試成本；安全性較前代降低幻覺與順從度。

深度分析

動態紅隊平台 RIFT-Bench：統一 NodeSpec 解析與跨框架代理 AI 安全測試

隨著代理式 AI 系統快速商業化，安全評估缺乏統一標準。RIFT-Bench 透過 NodeSpec 圖形表示，結合自動化的 Discovery 與 Scanning 兩階段，對 45 種異質系統進行 10,000 多項攻擊測試，證明其跨框架可移植性。此技術有望成為 AI 代理安全基準，促進產業與開源社群共同提升防禦能力。

深度分析

從抽樣到工具呼叫：代理式 AI 輸出變異的技術剖析與框架比較

本篇深度報導探討代理式 AI 系統在執行過程中出現的變異現象，從基礎模型的 token 抽樣機制切入，說明隨機抽樣、決定性解碼與外部環境變化三大變異來源。

深度分析

Iteris 代理式 AI 系統：以 explore‑plan‑execute 流程突破計算數學開放問題

計算數學的開放問題長期需要結合數值實驗與證明構造。研究團隊推出 Iteris 代理式研究系統，以 explore‑plan‑execute 迴路自動生成數據、構造與證明草稿，經專家修正後得到兩項新結果：CG 與隨機座標下降在冪律譜上的相位圖，以及 QR 分解在低相干情況下的反例。此案例顯示 AI 能在數學工作流中提供實質助力，但仍需人工驗證。

深度分析

MiniMax‑M2（MoE）：以迷你啟動、MTP 與 Forge 擴展 192K 上下文的代理式 AI 實務化

MiniMax‑M2 系列提出以 Mixture‑of‑Experts（MoE）與「迷你啟動」為核心的設計路線，主張在每個 token 僅啟動小量參數即可達到實務級別的代理式智慧。

深度分析

A-LEMS 能耗觀測：EpG 與 OOI 在代理式 AI 編排效率評估上的應用

隨著代理式AI系統日益複雜，傳統以每次推論耗能為單位的評量已失真。研究提出A-LEMS框架，將單位重新定義為每成功目標能源（EpG），並引入編排開銷指數（OOI）衡量多步驟編排成本。實驗顯示，代理工作流的平均EpG高出線性基線4.33倍，且在工具輔助任務中OOI可低於1，突顯編排結構是能耗關鍵因素。

Gemini 3.5 Flash

谷歌推出 Gemini Omni 與 3.5 Flash：視訊多模態與 Flash 快速模型解析

在 Google I/O 上，谷歌發表 Gemini 3.5 Flash 與 Gemini Omni Flash。Gemini 3.5 Flash 為 Gemini 3.5 系列的首款 Flash 模型，在多項基準測試上超越先前的 3.1 Pro，並在某些測試中與 OpenAI 的 GPT‑5.5、Anthropic 的 Opus 4.7 競爭。

深度分析

代理式 AI 導致網路攻擊加速：風險模型、CVE-2026-31431 與防禦路線圖

本研究探討代理式 AI 如何壓縮網路攻擊流程，透過降低偵查、釣魚、漏洞利用等成本，加速從落腳點到取得根權。案例以 2026 年 Linux 核心「Copy Fail」漏洞說明攻擊鏈的加速效應，並預測 2026‑2028 年企業與德國中小企業的安全挑戰與防禦優先順序。同時提出身分驗證、修補速度與容器硬化等六項防禦建議。

深度分析

SAP 併購 Prior Labs 並注資十億歐元成立表格基礎模型（TFM）實驗室，採授權代理（Joule、NemoClaw）控管接入

在SAP計畫併購德國新創PriorLabs的情境下，焦點落在表格基礎模型（TFM），它專處理資料表與資料庫中的結構化資料。TFM被視為比大型語言模型更貼近企業會計、人資與採購流程。SAP同步限制未授權代理接入，將影響企業採用代理式AI的路徑與生態。

深度分析

SciFi：安全、輕量、友善且全自動的科學應用代理式 AI 工作流

隨著代理式 AI 越趨成熟，實驗室部署仍面臨安全與可靠性挑戰。SciFi 以隔離環境、三層代理迴圈與自評執行機制，實現安全、輕量且全自動的科學任務執行。結果顯示，研究者可在最少人工干預下完成端對端工作流程，將例行工作交給 AI，專注創新研究。

深度分析

ALL-FEM：微調大型語言模型於 FEniCS 有限元素分析的自主平台

有限元素分析是工程模擬的基礎，然而編寫與驗證程式需跨領域專業。研究者開發 ALL-FEM，透過微調的大型語言模型與代理式框架自動產生、除錯 FEniCS 程式，並在 39 個多物理基準測試中取得 71.79% 的成功率，顯示小型模型結合代理機制即可有效自動化有限元素工作流程。