RAG 文件前處理大檢視:PDF→Markdown 框架誰決定問答準確度?
研究指出PDF前處理決定RAG問答表現。比較四種PDF→Markdown工具與21種管線,測試含清理、切分與metadata強化。以36份葡文行政文件和50題基準評估,Docling配合階層切分與圖像描述獲得最高94.1%準確率,metadata與層次切分對效能貢獻最大。
要點速讀
實驗發現:PDF 文件前處理是 RAG 系統表現的關鍵,優於單純更換轉換工具。
研究方法
研究團隊比較四款開源 PDF→Markdown 轉換框架(Docling、MinerU、Marker、DeepSeek OCR),在21種管線配置中變動轉換工具、清理變換、切分策略與 metadata 強化。評估語料為36份葡文行政文件(1706頁、約49.2萬字),採50題問答基準,每個配置進行50次 LLM 作為評審,並以 Wilcoxon 簽名等級檢定與 Cohen's d 衡量統計差異。
主要結果
Docling 結合階層式切分與圖像描述的自動化流程達到94.1±1.6% 的最高準確率,超越人工整理的91.3%與 naïve PDFLoader 的86.2%。針對題型分析顯示,表格依賴的題目產生最大差距,基本切分與階層切分間最高可差33個百分點。整體上,metadata 強化與階層感知的切分策略對準確度的貢獻,大於單一轉換框架的差異。
意義與建議
結論指出:RAG 導入時應把資源優先投入於資料準備、切分與 metadata 處理,而非僅著眼於更換轉換工具。研究也指出,像 GraphRAG 的初探實作在此資料與設定下表現不如基本 RAG,提示資料工程在系統效能中扮演決定性角色。
延伸閱讀
- 以 NCE 與 SSE 驗證的 AgentSOC:結合生成式推理與圖形化可行性驗證
- pAI/MSc:以人為監督的多代理研究管線與可審計 LangGraph 工作流
- MedSkillAudit:以分層審核評估醫學研究代理人技能的部署準備度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。