LLM 微調 - Agents Report | 代理人報告

深度分析

DIBA：以行為位移揭露 RLVR 下的成員推斷風險

研究指出，採用可驗證回饋的強化學習（RLVR）在大型語言模型微調中，產生一種新的隱私外洩向量：訓練過程會留下行為差異，而非單純答案記憶。論文提出 Divergence-in-Behavior Attack（DIBA），透過「優勢端正確性提升」與「logit 層機率分歧」兩軸量化模型行為變化，從而判定某提示是否曾被用於 RLVR 微調。