深度分析 GSM-SEM(Semantic Variant Generation):透過語意變體驗證語言模型泛化與穩定性 為避免訓練資料背誦掩蓋推理能力,研究提出 GSM-SEM,一套保留原始答案但改寫語意情境的隨機化增強框架,可每次產生新題並經人類驗證。評估 14 款 SOTA 模型顯示語義變體普遍導致表現下降,最嚴格設定下平均掉落約 28%,突顯語義遷移仍是關鍵挑戰。
深度分析 VISTA:驗證驅動的自蒸餾軌跡適應框架提升模型魯棒性 深度模型在訓練後期易出現軌跡偏離,VISTA 以驗證導向的邊際覆蓋分數挑選早期錨點,並於訓練中即時加權融合,提升魯棒性與泛化,同時降低儲存需求。