視覺文字感知 - Agents Report

深度分析

FalconPerception以0.6B參數的早期融合Transformer，將影像切片與文字提示同序列處理，突破傳統視覺編碼器加文字解碼器的管線架構，在SA‑Co基準取得68.0Macro‑F1，顯示在屬性、OCR、空間與關係等複雜任務上優於SAM3。