深度分析 Falcon Perception 0.6B 早期融合模型:單一 Transformer 同時支援視覺編碼與文字生成 FalconPerception以0.6B參數的早期融合Transformer,將影像切片與文字提示同序列處理,突破傳統視覺編碼器加文字解碼器的管線架構,在SA‑Co基準取得68.0Macro‑F1,顯示在屬性、OCR、空間與關係等複雜任務上優於SAM3。