深度分析 PPS vs IP:LoRA 微調下對大型語言模型的梯度翻轉與中和機制分析 研究探討防禦性訓練方法正向預防導向(PPS)與接種提示(IP)在大型語言模型中的機制差異。PPS 透過在特徵向量上翻轉梯度符號抑制惡意特質,IP 則以降低損失的方式「解釋」特質訊號。結果顯示兩者行為與機制皆不同,選擇時需考慮防禦效能與適用情境。