合成先驗 - Agents Report

表格基礎模型

研究比較三類表格預訓練語料：網路爬取、精選資料集與參數化生成的合成表格。以表格與欄位級特徵、判別器AUC與k-NN覆蓋率衡量分布相似性。結果指出合成先驗只覆蓋真實表格狹窄區域，且在超過86000組參數搜尋下仍無法彌合差距；精選與網路語料在特徵空間大致重疊。