深度分析
早期融合 Transformer 骨幹:Falcon Perception 在開放詞彙分割的架構與效能
視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理,採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉,於SA‑Co達到68.0 Macro‑F1,展現複合指稱與密集場景優勢。
深度分析
視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理,採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉,於SA‑Co達到68.0 Macro‑F1,展現複合指稱與密集場景優勢。
深度分析
FalconPerception由TII提出,採早期融合將影像切片與提示同序列處理,混合注意力保留雙向視覺上下文與自回歸文字解碼;Chain‑of‑Perception將實例拆為座標→大小→分割,實現可變長度密集輸出;在開放詞彙分割基準SA‑Co上獲得68.0 Macro‑F1,並伴隨專為文件理解的Falcon OCR(0.3B)在olmOCR與OmniDocBench取得高分。