Falcon Perception - Agents Report

深度分析

Falcon Perception 以早期融合 Transformer 重塑視覺語言模型效能

FalconPerception以0.6億參數的早期融合Transformer取代傳統視覺管線，透過混合注意力遮罩同時處理影像與文字，於SA‑Co基準取得68.0Macro‑F1，並推出PBench診斷測試與0.3億參數的FalconOCR，顯示單模型可同時支援分割與文件辨識。

深度分析

Falcon Perception：以混合注意力的早期融合 Transformer 提升開放詞彙分割效能

面對傳統視覺感知系統模組化管線過於複雜且難以擴展的挑戰，TII 推出 Falcon Perception 視覺模型。該模型採用早期融合 Transformer 架構，將影像與文字同序列處理，並透過混合注意力遮罩與結構化介面實現精準分割。實驗結果顯示其在 SA-Co 基準測試中優於 SAM 3，特別是在空間推理與 OCR 導向識別上表現亮眼，證明單一模型路徑在感知任務上的高效能。

深度分析

Falcon Perception：0.6 億參數早期融合 Transformer 打破開放詞彙視覺分割瓶頸

Falcon Perception以0.6億參數的早期融合Transformer，將影像貼片與文字同序列處理，在SA‑Co開放詞彙分割基準取得68.0Macro‑F1，顯著優於SAM 3，並推出PBench診斷基準與0.3億參數的Falcon OCR，提升文件辨識效能。

深度分析

0.6B Falcon Perception 以早期融合 Transformer 提升開放詞彙分割與 OCR 效能

Falcon Perception 針對開放詞彙分割提出早期融合 Transformer，將影像貼片與文字同序列處理並使用混合注意力遮罩，實現可變長實例輸出。於 SA‑Co 基準取得 68.0 Macro‑F1，顯示在屬性與密集場景上優於傳統管線，並提升效能。

深度分析

早期融合 Transformer 骨幹：Falcon Perception 在開放詞彙分割的架構與效能

視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理，採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉，於SA‑Co達到68.0 Macro‑F1，展現複合指稱與密集場景優勢。

深度分析

Falcon Perception 與 Falcon OCR：早期融合單一骨幹在開放詞彙分割與文件理解的實作與效能

FalconPerception由TII提出，採早期融合將影像切片與提示同序列處理，混合注意力保留雙向視覺上下文與自回歸文字解碼；Chain‑of‑Perception將實例拆為座標→大小→分割，實現可變長度密集輸出；在開放詞彙分割基準SA‑Co上獲得68.0 Macro‑F1，並伴隨專為文件理解的Falcon OCR（0.3B）在olmOCR與OmniDocBench取得高分。

深度分析

Falcon Perception 0.6B 早期融合模型：單一 Transformer 同時支援視覺編碼與文字生成

FalconPerception以0.6B參數的早期融合Transformer，將影像切片與文字提示同序列處理，突破傳統視覺編碼器加文字解碼器的管線架構，在SA‑Co基準取得68.0Macro‑F1，顯示在屬性、OCR、空間與關係等複雜任務上優於SAM3。

深度分析

Falcon Perception 0.6B：早期融合 Transformer 開創開放詞彙視覺定位與分割新局

Falcon Perception 針對開放詞彙視覺定位提出早期融合 Transformer，使用混合注意力與 Chain‑of‑Perception 介面，同時處理影像與文字提示，於 SA‑Co 基準達 68.0 Macro‑F1，顯著超越 SAM 3，並提升 OCR、空間與關係推理能力，預示單塔結構在多模態感知的未來潛力。