時間敏感性 - Agents Report

速報

LLM 生成題目改變時間污染訊號：影響函數揭示評測敏感性

這項 ArXiv 研究挑戰了將「後截斷表現衰退」視為基準資料污染的普遍解讀。作者發現，基準題目的構造方式會顯著改變觀察到的時間訊號：同一份來源，直接抽出的填空題與由大型語言模型（LLM）生成的題目，會呈現不同的時間趨勢。研究在先前報告出現衰退的基準上復驗，並示範簡單的 LLM 轉換能消除該時間模式；