深度分析 Falcon Perception 0.6B:早期融合 Transformer 開創開放詞彙視覺定位與分割新局 Falcon Perception 針對開放詞彙視覺定位提出早期融合 Transformer,使用混合注意力與 Chain‑of‑Perception 介面,同時處理影像與文字提示,於 SA‑Co 基準達 68.0 Macro‑F1,顯著超越 SAM 3,並提升 OCR、空間與關係推理能力,預示單塔結構在多模態感知的未來潛力。