大型語言模型與矽樣本:配置選擇如何左右社會科學結論
社會科學研究開始利用大型語言模型生成「矽樣本」作為受訪者替代,但這類合成資料的生成牽涉多項分析選擇。作者透過兩項實驗檢視配置差異是否會實質改變與真實人類資料的對應性。第一項研究測試252種配置,評估排序、反應分布與量表間相關;第二項則以已發表案例重測66種替代配置。
矽樣本能否當傳統受訪者替代?配置決定成敗
社會科學界近年嘗試用大型語言模型生成「矽樣本」來模擬人類回應,但新研究指出,合理的分析選擇會大幅影響結果解讀。
研究者在第一項實驗中產生了252種矽樣本配置,對兩個社會心理量表進行測試,評估是否能恢復受試者排序、回應分布與量表間相關。結果發現,各配置在三項指標上表現差異顯著,且在某一面向表現良好的配置常在另一面向表現不佳。
第二項實驗針對已發表的案例(Argyle et al., 2023)進行重測,嘗試66種替代配置。人類資料與矽樣本的關聯結構在不同配置間差異很大,相關係數落在r = .23至r = .84之間,顯示結論的穩健性高度依賴配置選擇。
作者因此警告,生成矽樣本時的「分析彈性」會成為威脅:多種看似合理的設定可能導致相互衝突的結論。為降低風險,建議研究者提高配置透明度、報告多重配置測試結果,並採用預註冊或多重驗證流程來檢驗矽樣本的忠實度。
總結來說,矽樣本具有潛力,但其信度與代表性並非單靠一套設定就能保證;對配置選擇保持謹慎、系統化的評估,是提升合成資料研究可信度的關鍵。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。