深度分析
0.6B Falcon Perception 以早期融合 Transformer 提升開放詞彙分割與 OCR 效能
Falcon Perception 針對開放詞彙分割提出早期融合 Transformer,將影像貼片與文字同序列處理並使用混合注意力遮罩,實現可變長實例輸出。於 SA‑Co 基準取得 68.0 Macro‑F1,顯示在屬性與密集場景上優於傳統管線,並提升效能。
深度分析
Falcon Perception 針對開放詞彙分割提出早期融合 Transformer,將影像貼片與文字同序列處理並使用混合注意力遮罩,實現可變長實例輸出。於 SA‑Co 基準取得 68.0 Macro‑F1,顯示在屬性與密集場景上優於傳統管線,並提升效能。
深度分析
視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理,採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉,於SA‑Co達到68.0 Macro‑F1,展現複合指稱與密集場景優勢。
深度分析
FalconPerception由TII提出,採早期融合將影像切片與提示同序列處理,混合注意力保留雙向視覺上下文與自回歸文字解碼;Chain‑of‑Perception將實例拆為座標→大小→分割,實現可變長度密集輸出;在開放詞彙分割基準SA‑Co上獲得68.0 Macro‑F1,並伴隨專為文件理解的Falcon OCR(0.3B)在olmOCR與OmniDocBench取得高分。
深度分析
FalconPerception以0.6B參數的早期融合Transformer,將影像切片與文字提示同序列處理,突破傳統視覺編碼器加文字解碼器的管線架構,在SA‑Co基準取得68.0Macro‑F1,顯示在屬性、OCR、空間與關係等複雜任務上優於SAM3。
深度分析
Falcon Perception 針對開放詞彙視覺定位提出早期融合 Transformer,使用混合注意力與 Chain‑of‑Perception 介面,同時處理影像與文字提示,於 SA‑Co 基準達 68.0 Macro‑F1,顯著超越 SAM 3,並提升 OCR、空間與關係推理能力,預示單塔結構在多模態感知的未來潛力。