深度分析
CutVerse:以 GUI 代理與多模態評測建立專業影像後製長程任務基準
CutVerse 針對專業影像後製提出以人類等價操作為基礎的 GUI 代理基準,整合 7 款專業軟體與 186 項長程任務,並以螢幕錄製解析器與標準化 Windows VM 量化代理在像素級空間定位、跨模態對齊與組合式操作的能力;實驗顯示現有模型在長程可靠性與專業規劃上仍存在明顯短板。
深度分析
CutVerse 針對專業影像後製提出以人類等價操作為基礎的 GUI 代理基準,整合 7 款專業軟體與 186 項長程任務,並以螢幕錄製解析器與標準化 Windows VM 量化代理在像素級空間定位、跨模態對齊與組合式操作的能力;實驗顯示現有模型在長程可靠性與專業規劃上仍存在明顯短板。
深度分析
DeepSeek於2026年推出V4模型,提供百萬標記上下文窗口,採用壓縮稀疏與重度壓縮注意力混合設計,顯著降低每步運算與KV快取需求。實測在長程代理任務中表現與商業閉源模型相當,預示開源大模型在應用上將更具競爭力。V4‑Pro以27%FLOPs與2%KV快取較提升,支援階段工具呼叫與思考。