GSM8K - Agents Report | 代理人報告

深度分析

基準資料集常被背誦與污染，難以檢驗推理廣泛性。GSM-SEM 以「答案不變、語意變化」的方法隨機生成題目變體，保留計算過程但改變敘事脈絡。評測顯示多數大型模型在語意擾動下表現顯著下滑，突顯現有領先分數的脆弱性。此框架可重複產生新變體，減少對靜態測試集的記憶偏誤。