SynthDoG - Agents Report | 代理人報告

深度分析

「Nemotron OCR v2」與合成資料管線：高速多語言光學字元辨識全解析

為降低多語言OCR標註成本，NVIDIA建立合成資料管線，隨機生成字型、背景、版面與閱讀順序，產出1200萬張影像訓練NemotronOCRv2。模型在合成與真實測試中將NED降至0.035‑0.069，且單卡A100可達34.7頁/秒，展示合成資料可有效取代手工標註，促進多語言文件識別的快速部署。