深度分析 早期融合 Transformer 與 Chain‑of‑Perception:Falcon Perception 的開放詞彙分割策略 Falcon Perception 是由 TII Falcon 視覺團隊提出的一個 0.6B 參數早期融合 Transformer,將影像切片與文字提示視為同一序列處理,透過混合注意力掩碼同時保留影像的雙向上下文與語言的自回歸預測能力。