深度分析 早期融合 Transformer 骨幹:Falcon Perception 在開放詞彙分割的架構與效能 視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理,採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉,於SA‑Co達到68.0 Macro‑F1,展現複合指稱與密集場景優勢。