深度分析 「Nemotron OCR v2」與合成資料管線:高速多語言光學字元辨識全解析 為降低多語言OCR標註成本,NVIDIA建立合成資料管線,隨機生成字型、背景、版面與閱讀順序,產出1200萬張影像訓練NemotronOCRv2。模型在合成與真實測試中將NED降至0.035‑0.069,且單卡A100可達34.7頁/秒,展示合成資料可有效取代手工標註,促進多語言文件識別的快速部署。