深度分析
Holotron-12B:基於 Nemotron 的混合 SSM+注意力,提升代理型多模態吞吐與穩定性
研究團隊推出Holotron-12B,基於NVIDIANemotron後訓,定位為電腦使用代理的生產化部署。模型結合混合狀態空間模型與注意力機制,藉由降低KV快取記憶體與線性化序列處理,擴展多影像與長上下文推論效率。基準測試顯示推論吞吐與代理任務表現更顯著提升。
深度分析
研究團隊推出Holotron-12B,基於NVIDIANemotron後訓,定位為電腦使用代理的生產化部署。模型結合混合狀態空間模型與注意力機制,藉由降低KV快取記憶體與線性化序列處理,擴展多影像與長上下文推論效率。基準測試顯示推論吞吐與代理任務表現更顯著提升。
深度分析
CAPTCHA長期阻礙多模態代理於網頁自動化的實務應用。本研究提出CaptchaBench與CaptchaMind,結合含流程註解的訓練資料與以強化學習加顯式推理監督的解法,實驗在八類任務上平均成功率達82.9%,對真實樣本也達71.0%。
深度分析
面對多模態模型將錯誤視覺判斷當作執行依據,研究提出Evidence‑CarryingMultimodalAgents(ECA)。ECA以受限驗證器為OCR、DOM與UI產生型別證書,並以確定性閘門僅在證書齊備時授權執行。實驗於紅隊與端到端測試中顯著降低不安全執行率。
深度分析
HCompany發布Holotron-12B,基於NVIDIANemotron混合SSM與注意力機制微調以處理長上下文與多影像互動場景;在單顆H100配合vLLM優化下,推理吞吐量與記憶體效率明顯提升,對高併發代理任務與企業化部署具實務吸引力。
深度分析
H公司基於NVIDIANemotronNano2VL發布Holotron12B,多模態代理模型以混合狀態空間與注意力提升長序列與多圖像效能。WebVoyager基準測試顯示吞吐量超過兩倍,達每秒8.9k token,顯示高併發應用的明顯優勢。
深度分析
H Company 推出 Holotron-12B,一款以 NVIDIA Nemotron 系列為基礎、針對電腦使用代理任務優化的多模態模型。團隊採用混合狀態空間模型(SSM)與注意力機制的 Nemotron 架構,重點在於長序列推理的記憶體效率與高併發伺服能力。
深度分析
研究推出COMPOSITE-STEM,結合專家設計題目與可執行容器評測。以Harbor/Terminus-2做多模態代理測試,對物理、化學、生物與數學任務進行評分。最高Pass@1為21.4%,顯示代理式科學任務仍具挑戰。並以多評審LLM裁判及精細規則評分,涵蓋精確比對與語意判定,能檢視部分進展與失誤模式。
深度分析
半導體缺陷分析需結合影像、設備遙測與歷史資料。SemiFA 以四代理 LangGraph 流程自動生成報告,融合視覺模型與 SECS/GEM 資訊,提高根因推理精度。完整報告於 48 秒內完成,顯示多模態技術在製程診斷的效能突破。