語意變體

大型模型語意變體測試圖

深度分析

GSM-SEM 框架：透過答案不變的語意變體測試大型語言模型推理穩健性

基準資料集常被背誦與污染，難以檢驗推理廣泛性。GSM-SEM 以「答案不變、語意變化」的方法隨機生成題目變體，保留計算過程但改變敘事脈絡。評測顯示多數大型模型在語意擾動下表現顯著下滑，突顯現有領先分數的脆弱性。此框架可重複產生新變體，減少對靜態測試集的記憶偏誤。

語意變體測試流程視覺化

深度分析

GSM-SEM（Semantic Variant Generation）：透過語意變體驗證語言模型泛化與穩定性

為避免訓練資料背誦掩蓋推理能力，研究提出 GSM-SEM，一套保留原始答案但改寫語意情境的隨機化增強框架，可每次產生新題並經人類驗證。評估 14 款 SOTA 模型顯示語義變體普遍導致表現下降，最嚴格設定下平均掉落約 28%，突顯語義遷移仍是關鍵挑戰。