深度分析 「DharmaOCR」運用直接偏好最佳化 (DPO) 大幅降低 OCR 文字退化率 隨著OCR模型在實務部署中常出現文字重複迴圈的退化問題,DharmaAI提出將模型自產的失敗輸出作為拒絕樣本,透過直接偏好最佳化(DPO)二階段訓練。實驗顯示,五大模型族群的退化率平均下降59.4%,最高降至87.6%,且不影響辨識品質,為結構化生成任務提供可行的失敗抑制方案。