策略蒸餾 - Agents Report

OvisOCR2 end-to-end document parsing architecture and benchmark score overview.

深度分析

端到端文件解析新標竿：OvisOCR2 以 0.8B 參數與策略蒸餾在 OmniDocBench v1.6 獲 96.58 高分

文件解析長期依賴多階段管線方案，但容易產生錯誤累積。OvisOCR2 推出端到端架構，利用結合真實與合成數據的引擎，搭配 SFT 與強化學習及策略蒸餾技術，將文件影像直接轉換為 Markdown。該模型在 OmniDocBench v1.6 取得 96.58 分的頂尖成績，證明輕量級端到端模型能超越複雜的管線方案，提升解析準確度。

端到端文件解析新標竿：OvisOCR2 以 0.8B 參數與策略蒸餾在 OmniDocBench v1.6 獲 96.58 高分

TCOD：以時序課程緩解多回合代理中的軌跡級 KL 不穩定