深度分析
0.6B Falcon Perception 以早期融合 Transformer 提升開放詞彙分割與 OCR 效能
Falcon Perception 針對開放詞彙分割提出早期融合 Transformer,將影像貼片與文字同序列處理並使用混合注意力遮罩,實現可變長實例輸出。於 SA‑Co 基準取得 68.0 Macro‑F1,顯示在屬性與密集場景上優於傳統管線,並提升效能。
深度分析
Falcon Perception 針對開放詞彙分割提出早期融合 Transformer,將影像貼片與文字同序列處理並使用混合注意力遮罩,實現可變長實例輸出。於 SA‑Co 基準取得 68.0 Macro‑F1,顯示在屬性與密集場景上優於傳統管線,並提升效能。
深度分析
FalconPerception以0.6B參數的早期融合Transformer,將影像切片與文字提示同序列處理,突破傳統視覺編碼器加文字解碼器的管線架構,在SA‑Co基準取得68.0Macro‑F1,顯示在屬性、OCR、空間與關係等複雜任務上優於SAM3。