深度分析 Holotron-12B:基於 NVIDIA Nemotron‑Nano‑2 VL 的高效能多模態代理,實現 2 倍吞吐量 H公司基於NVIDIANemotronNano2VL發布Holotron12B,多模態代理模型以混合狀態空間與注意力提升長序列與多圖像效能。WebVoyager基準測試顯示吞吐量超過兩倍,達每秒8.9k token,顯示高併發應用的明顯優勢。