Camelot 與 LLM 混合策略:在學術表格式 PDF 的高效資訊擷取
從學術 PDF 擷取結構化資料不易,單頁常混合自由文字與表格,還會受 Unicode 編碼影響。本研究以印尼高教的選課表(KRS)為案例,比較三種策略:純 LLM、正規表達式+LLM 的混合決定性流程,以及以 Camelot 為主、LLM 備援的管線。
要點速讀
學術 PDF 尤其是含表格式的文件,長期以來難以穩定抽取結構化資訊。此研究用印尼高教的選課表(KRS)做為實證,直接比較三類方法對表格與描述性欄位的處理成效。
研究設計與方法
三種方法被評估:純 LLM;以正規表達式搭配 LLM 的混合決定性流程;以及以 Camelot 為核心、LLM 作為備援的管線。實驗在本地消費級 CPU 環境執行,多款 12–14B 的模型(包含 Gemma 3、Phi 4、Qwen 2.5)。資料集為 140 份文件(LLM 測試)與 860 份文件(Camelot 管線評估),涵蓋四個系所的不同表格與 metadata 組合。
評估與結果
使用精確比對(EM)與 Levenshtein 相似度(LS)兩項指標,並以 0.7 為相似度門檻。結果指出,對於具有規則性的 metadata 欄位,混合決定性方法比純 LLM 更有效率;而以 Camelot 為主並由 LLM 備援的管線,在準確率與運算效率上取得最佳平衡,多數情況下每份 PDF 處理時間低於一秒,EM/LS 可達 0.99–1.00。Qwen 2.5(14B)在各場景中表現較為穩定。
意義與結論
在資源受限的運算環境下,將確定性規則與大型語言模型結合,能兼顧精準度與效能,對於學術表格式 PDF 的大規模處理具有實務參考價值。
延伸閱讀
- 以 NCE 與 SSE 驗證的 AgentSOC:結合生成式推理與圖形化可行性驗證
- pAI/MSc:以人為監督的多代理研究管線與可審計 LangGraph 工作流
- MedSkillAudit:以分層審核評估醫學研究代理人技能的部署準備度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。