LLM後截止效能衰減並非單純汙染信號:題目轉換大幅改變時間性表現
研究指出,評估大型語言模型(LLM)在訓練截止後表現下滑常被視為基準資料汙染證據,但這項時間性訊號對基準題目構造相當敏感。作者比較直接從文件抽取的填空題(cloze)與由LLM改寫後的題目,並在先前報告衰減的基準(如LiveCodeBench)上驗證發現。
要點速報
大型語言模型(LLM)在訓練截止後的表現衰減常被當作基準資料汙染的時間性信號,但新研究發現這個信號高度依賴題目如何被構造。
方法與主要發現
研究團隊將直接從來源文件抽出的填空題(cloze)與經由LLM改寫的題目做比較。結果顯示,LLM改寫的題目會產生與原始填空題截然不同的後截止時間性模式;在先前報告有明顯衰減的基準(例如LiveCodeBench)上,簡單的LLM驅動題目轉換即可顯著消減或改變該時間性趨勢。研究並採用影響函數(influence function)進行機制性分析,指出題目語式與提示形式會改變模型如何利用訓練資料,進而影響是否出現記憶式提振的表現。
結論與意涵
作者認為,單憑後截止表現衰減來判定基準汙染過於脆弱。為了更可靠地評估LLM是否受公開資料影響,需要設計更穩健且對題目形式不敏感的汙染檢測方法。
延伸閱讀
- 以 NCE 與 SSE 驗證的 AgentSOC:結合生成式推理與圖形化可行性驗證
- pAI/MSc:以人為監督的多代理研究管線與可審計 LangGraph 工作流
- MedSkillAudit:以分層審核評估醫學研究代理人技能的部署準備度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。