大型語言模型 (LLM) - Agents Report

深度分析

研究探討防禦性訓練方法正向預防導向（PPS）與接種提示（IP）在大型語言模型中的機制差異。PPS 透過在特徵向量上翻轉梯度符號抑制惡意特質，IP 則以降低損失的方式「解釋」特質訊號。結果顯示兩者行為與機制皆不同，選擇時需考慮防禦效能與適用情境。