深度分析 GSM-SEM(Semantic Variant Generation):透過語意變體驗證語言模型泛化與穩定性 為避免訓練資料背誦掩蓋推理能力,研究提出 GSM-SEM,一套保留原始答案但改寫語意情境的隨機化增強框架,可每次產生新題並經人類驗證。評估 14 款 SOTA 模型顯示語義變體普遍導致表現下降,最嚴格設定下平均掉落約 28%,突顯語義遷移仍是關鍵挑戰。