Query2Effect:用大型語言模型預測因果效果的新基準
隨機對照試驗成本高昂,研究嘗試從既有實驗預測因果效果。Query2Effect 構建超過72000條自然語言查詢,並以兩步法先生成結構化表示再用監督編碼器預測效果。研究比較出廠即用的大型語言模型與微調模型,結果顯示微調能顯著降低誤差並提升領域外泛化能力。
Query2Effect:用大型語言模型預測因果效果
研究團隊提出 Query2Effect 基準與一套兩步預測框架,示範如何利用語言模型配合監督式編碼器,從自然語言查詢估算實驗的因果效果。這項工作鎖定降低重複實驗成本、加速證據彙整的應用場景。
Query2Effect 收錄超過72,000條自然語言問題,透過變化查詢的隱含性、抽象化與歧義,模擬真實資訊搜尋情境。方法先由模型生成合成的結構化查詢表示,再以監督式編碼器將語義轉為數值效果估計,達到語義解析與數值推估的分工。
實驗結果顯示,對大型語言模型進行微調在預測準確度上關鍵性顯著提升;與出廠即用的提示式方法相比,絕對誤差降低約27%至71%。同時,兩步框架在領域外資料上的泛化表現更佳,說明將語義理解與效果估算分離有助穩健性。
研究指出,此方向有助於從既有實驗中快速獲取因果線索,但應持續評估模型在不同資料分佈與偏誤情況下的適用限度。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。