深度分析
GSM-SEM 框架:透過答案不變的語意變體測試大型語言模型推理穩健性
基準資料集常被背誦與污染,難以檢驗推理廣泛性。GSM-SEM 以「答案不變、語意變化」的方法隨機生成題目變體,保留計算過程但改變敘事脈絡。評測顯示多數大型模型在語意擾動下表現顯著下滑,突顯現有領先分數的脆弱性。此框架可重複產生新變體,減少對靜態測試集的記憶偏誤。
深度分析
基準資料集常被背誦與污染,難以檢驗推理廣泛性。GSM-SEM 以「答案不變、語意變化」的方法隨機生成題目變體,保留計算過程但改變敘事脈絡。評測顯示多數大型模型在語意擾動下表現顯著下滑,突顯現有領先分數的脆弱性。此框架可重複產生新變體,減少對靜態測試集的記憶偏誤。
深度分析
為避免訓練資料背誦掩蓋推理能力,研究提出 GSM-SEM,一套保留原始答案但改寫語意情境的隨機化增強框架,可每次產生新題並經人類驗證。評估 14 款 SOTA 模型顯示語義變體普遍導致表現下降,最嚴格設定下平均掉落約 28%,突顯語義遷移仍是關鍵挑戰。