防禦技術 - Agents Report

速報

研究指出模型輸出在提升實用性與被模仿間存有權衡。作者提出一個師生最小極大對弈，並導出自適應評估與抑制重要輸出的教師端防禦。從代理價值估計衍生Product-of-Experts(PoE)前向防禦。實驗顯示在自適應評估下，被動防禦過度樂觀，強化蒸餾仍難阻擋。