速報 LLM 生成題目改變時間污染訊號:影響函數揭示評測敏感性 這項 ArXiv 研究挑戰了將「後截斷表現衰退」視為基準資料污染的普遍解讀。作者發現,基準題目的構造方式會顯著改變觀察到的時間訊號:同一份來源,直接抽出的填空題與由大型語言模型(LLM)生成的題目,會呈現不同的時間趨勢。研究在先前報告出現衰退的基準上復驗,並示範簡單的 LLM 轉換能消除該時間模式;