速報
RAG 文件前處理大檢視:PDF→Markdown 框架誰決定問答準確度?
研究指出PDF前處理決定RAG問答表現。比較四種PDF→Markdown工具與21種管線,測試含清理、切分與metadata強化。以36份葡文行政文件和50題基準評估,Docling配合階層切分與圖像描述獲得最高94.1%準確率,metadata與層次切分對效能貢獻最大。
速報
研究指出PDF前處理決定RAG問答表現。比較四種PDF→Markdown工具與21種管線,測試含清理、切分與metadata強化。以36份葡文行政文件和50題基準評估,Docling配合階層切分與圖像描述獲得最高94.1%準確率,metadata與層次切分對效能貢獻最大。
深度分析
在企業文件自動化需求下,Granite 4.0 3B Vision以ChartNet與DeepStack為核心,透過LoRA模組化佈署,能精準抽取表格、解析圖表與萃取語意KVP;測試在多項基準展現競爭力,預計提升企業大規模文件處理的效率與可用性。