端到端稀疏採樣 - Agents Report

深度分析

PDF‑WuKong 提出一種面向長篇 PDF（如學術論文）的多模態大模型架構，核心在於將文件解析成交錯的文字段落與圖像，並透過一個端到端可訓練的稀疏採樣器（sparse sampler）同時對文字與圖像嵌入做相似度檢索，挑出與使用者查詢最相關的段落或圖表作為證據，然後交給大語言模型產生回答。