LLM 生成題目改變時間污染訊號:影響函數揭示評測敏感性

這項 ArXiv 研究挑戰了將「後截斷表現衰退」視為基準資料污染的普遍解讀。作者發現,基準題目的構造方式會顯著改變觀察到的時間訊號:同一份來源,直接抽出的填空題與由大型語言模型(LLM)生成的題目,會呈現不同的時間趨勢。研究在先前報告出現衰退的基準上復驗,並示範簡單的 LLM 轉換能消除該時間模式;

大型語言模型時間污染影響函數

LLM 生成題目可扭轉時間污染訊號

研究指出,單憑後截斷後的表現衰退,不應直接當作基準資料被污染的證據。最重要的變因其實是題目如何被構造。

研究團隊比較了同一來源的兩種題型:直接從文本中取出的填空題,與由大型語言模型(LLM)生成的題目。結果顯示,兩者會產生截然不同的時間趨勢。在先前報告出現明顯衰退的基準上復驗後,研究者示範只要對題目做簡單的 LLM 轉換,原本的時間衰退模式就可能消失或被改變。

為了理解這個現象的機制,作者採用影響函數分析,追蹤單一樣本對模型整體表現的貢獻,從而提出可能的因果與干擾路徑。整體結論提醒評測社群:時間敏感的污染指標高度依賴題目構造,現有檢測方法可能過於脆弱,亟需發展更穩健的污染偵測策略,才能確保 AI 評估的公正性與可重複性。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more