深度分析
Head-Conditioned Canaries 審計推理痕跡:解析 parser-split bypass 與 decode-time prefill 敏感性
研究聚焦推理模型遺忘審計中思考痕跡仍輸出被忘內容的現象,採head-conditionedcanaries、LoRA記憶與NPO遺忘,並以decode-timeprefill交換檢查;結果顯示parser-split的bypass差距不必然代表權重記憶,建議加入固定prefill與teacher-forced驗證以提高審計可靠度。