PDF 結構化抽取 - Agents Report

PaddleOCR

GitHub上的開源專案PaddleOCR提供一套以輕量化模型為核心的文件OCR與文檔解析工具。它結合多語言文字辨識、PDF結構抽取與影像預處理等做法，幫助將影像或PDF轉為可供大型語言模型使用的結構化資料，促進自動化資訊擷取與下游應用。在實務上具備多平台部署與社群採用實例。