多模態代理 - Agents Report

深度分析

開源多模態代理 Syll：統一 API、CLI、GUI 執行層提升個人自動化可靠性

隨著個人AI代理須跨越API、CLI與桌面GUI，研究提出開源多模態代理Syll，透過示範即學技能並產生可審核的執行證據，驗證於Photoshop、Audition等應用成功。Syll將記憶、技能、例行與治理外部化為本地可編輯檔案，提供審核門檻與持續擴充能力。

深度分析

Holotron-12B：基於 Nemotron 的混合 SSM＋注意力，提升代理型多模態吞吐與穩定性

研究團隊推出Holotron-12B，基於NVIDIANemotron後訓，定位為電腦使用代理的生產化部署。模型結合混合狀態空間模型與注意力機制，藉由降低KV快取記憶體與線性化序列處理，擴展多影像與長上下文推論效率。基準測試顯示推論吞吐與代理任務表現更顯著提升。

深度分析

CaptchaMind 與 CaptchaBench：以顯式推理監督與強化學習提升 CAPTCHA 解題能力

CAPTCHA長期阻礙多模態代理於網頁自動化的實務應用。本研究提出CaptchaBench與CaptchaMind，結合含流程註解的訓練資料與以強化學習加顯式推理監督的解法，實驗在八類任務上平均成功率達82.9%，對真實樣本也達71.0%。

深度分析

ECA：以型別化證書與確定性閘門強化多模態代理授權安全

面對多模態模型將錯誤視覺判斷當作執行依據，研究提出Evidence‑CarryingMultimodalAgents（ECA）。ECA以受限驗證器為OCR、DOM與UI產生型別證書，並以確定性閘門僅在證書齊備時授權執行。實驗於紅隊與端到端測試中顯著降低不安全執行率。

深度分析

Holotron-12B：以 Nemotron 為基礎結合混合 SSM 提升多模態電腦使用代理吞吐與長序列處理

HCompany發布Holotron-12B，基於NVIDIANemotron混合SSM與注意力機制微調以處理長上下文與多影像互動場景；在單顆H100配合vLLM優化下，推理吞吐量與記憶體效率明顯提升，對高併發代理任務與企業化部署具實務吸引力。

深度分析

Holotron-12B：基於 NVIDIA Nemotron‑Nano‑2 VL 的高效能多模態代理，實現 2 倍吞吐量

H公司基於NVIDIANemotronNano2VL發布Holotron12B，多模態代理模型以混合狀態空間與注意力提升長序列與多圖像效能。WebVoyager基準測試顯示吞吐量超過兩倍，達每秒8.9k token，顯示高併發應用的明顯優勢。

深度分析

Holotron-12B：基於 Nemotron 的混合 SSM-注意力架構，實現伺服端高吞吐多模態代理

H Company 推出 Holotron-12B，一款以 NVIDIA Nemotron 系列為基礎、針對電腦使用代理任務優化的多模態模型。團隊採用混合狀態空間模型（SSM）與注意力機制的 Nemotron 架構，重點在於長序列推理的記憶體效率與高併發伺服能力。

深度分析

COMPOSITE‑STEM：面向真實科學工作流程的跨域基準與 Harbor/Terminus‑2 多模態代理評測

研究推出COMPOSITE-STEM，結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試，對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%，顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分，涵蓋精確比對與語意判定，能檢視部分進展與失誤模式。

深度分析

SemiFA：結合 DINOv2、LLaVA‑1.6 與 SECS/GEM 的全自動多模態缺陷分析框架

半導體缺陷分析需結合影像、設備遙測與歷史資料。SemiFA 以四代理 LangGraph 流程自動生成報告，融合視覺模型與 SECS/GEM 資訊，提高根因推理精度。完整報告於 48 秒內完成，顯示多模態技術在製程診斷的效能突破。