trace-aware-forgetting - Agents Report

分析 parser-split 與 decode-time prefill 頭條條件 canary 記憶痕跡

深度分析

Head-Conditioned Canaries 審計推理痕跡：解析 parser-split bypass 與 decode-time prefill 敏感性

研究聚焦推理模型遺忘審計中思考痕跡仍輸出被忘內容的現象，採head-conditionedcanaries、LoRA記憶與NPO遺忘，並以decode-timeprefill交換檢查；結果顯示parser-split的bypass差距不必然代表權重記憶，建議加入固定prefill與teacher-forced驗證以提高審計可靠度。