直接偏好最佳化 - Agents Report

深度分析

隨著OCR模型在實務部署中常出現文字重複迴圈的退化問題，DharmaAI提出將模型自產的失敗輸出作為拒絕樣本，透過直接偏好最佳化（DPO）二階段訓練。實驗顯示，五大模型族群的退化率平均下降59.4%，最高降至87.6%，且不影響辨識品質，為結構化生成任務提供可行的失敗抑制方案。