深度分析 DIBA:以行為位移揭露 RLVR 下的成員推斷風險 研究指出,採用可驗證回饋的強化學習(RLVR)在大型語言模型微調中,產生一種新的隱私外洩向量:訓練過程會留下行為差異,而非單純答案記憶。論文提出 Divergence-in-Behavior Attack(DIBA),透過「優勢端正確性提升」與「logit 層機率分歧」兩軸量化模型行為變化,從而判定某提示是否曾被用於 RLVR 微調。