深度分析
PixelRAG 透過視覺檢索取代文字解析:架構、訓練與實驗成果
研究指出傳統文字解析在企業RAG中損失關鍵訊號,PixelRAG直接以螢幕擷取圖像作檢索,提升準確度最高18%。此法亦大幅降低代幣成本。研究團隊來自加州大學柏克萊、普林斯頓與EPFL,測試30億截圖覆蓋全維基,六項基準皆優於文字RAG。顯示視覺檢索的潛力。
深度分析
研究指出傳統文字解析在企業RAG中損失關鍵訊號,PixelRAG直接以螢幕擷取圖像作檢索,提升準確度最高18%。此法亦大幅降低代幣成本。研究團隊來自加州大學柏克萊、普林斯頓與EPFL,測試30億截圖覆蓋全維基,六項基準皆優於文字RAG。顯示視覺檢索的潛力。
深度分析
語言模型同時處理程式碼與文字的需求提升,研究者提出雙向小粒度搜尋任務,打造包含三十萬對自動生成說明的資料集,並設計 CAT 模型共用編碼器預測答案起止。實驗在同領域測試中 F1 超過八成,顯示此技術可加速科研程式碼與說明的對應,並支援即時向量檢索。