速報 對抗模型蒸餾:Product-of-Experts (PoE) 的防禦與自適應評估 研究指出模型輸出在提升實用性與被模仿間存有權衡。作者提出一個師生最小極大對弈,並導出自適應評估與抑制重要輸出的教師端防禦。從代理價值估計衍生Product-of-Experts(PoE)前向防禦。實驗顯示在自適應評估下,被動防禦過度樂觀,強化蒸餾仍難阻擋。