速報
對抗模型蒸餾:Product-of-Experts (PoE) 的防禦與自適應評估
研究指出模型輸出在提升實用性與被模仿間存有權衡。作者提出一個師生最小極大對弈,並導出自適應評估與抑制重要輸出的教師端防禦。從代理價值估計衍生Product-of-Experts(PoE)前向防禦。實驗顯示在自適應評估下,被動防禦過度樂觀,強化蒸餾仍難阻擋。
速報
研究指出模型輸出在提升實用性與被模仿間存有權衡。作者提出一個師生最小極大對弈,並導出自適應評估與抑制重要輸出的教師端防禦。從代理價值估計衍生Product-of-Experts(PoE)前向防禦。實驗顯示在自適應評估下,被動防禦過度樂觀,強化蒸餾仍難阻擋。
Anthropic Mythos
Anthropic 的新模型 Mythos 因「太強」而未對外公開,僅提供給特定大企業。官方稱是為了網路安全,但業界質疑這其實是為了防止模型蒸餾與強化企業合約。這場關於安全與商業利益的博弈,揭露了頂尖 AI 實驗室的生存戰術。