速報 LLM後截止效能衰減並非單純汙染信號:題目轉換大幅改變時間性表現 研究指出,評估大型語言模型(LLM)在訓練截止後表現下滑常被視為基準資料汙染證據,但這項時間性訊號對基準題目構造相當敏感。作者比較直接從文件抽取的填空題(cloze)與由LLM改寫後的題目,並在先前報告衰減的基準(如LiveCodeBench)上驗證發現。