深度分析 以端到端稀疏採樣實作長篇 PDF 多模態理解 — PDF‑WuKong 方法與評測 PDF‑WuKong 提出一種面向長篇 PDF(如學術論文)的多模態大模型架構,核心在於將文件解析成交錯的文字段落與圖像,並透過一個端到端可訓練的稀疏採樣器(sparse sampler)同時對文字與圖像嵌入做相似度檢索,挑出與使用者查詢最相關的段落或圖表作為證據,然後交給大語言模型產生回答。