llm - Agents Report | 代理人報告

速報

研究指出，評估大型語言模型（LLM）在訓練截止後表現下滑常被視為基準資料汙染證據，但這項時間性訊號對基準題目構造相當敏感。作者比較直接從文件抽取的填空題（cloze）與由LLM改寫後的題目，並在先前報告衰減的基準（如LiveCodeBench）上驗證發現。