大型語言模型 - Agents Report

速報

研究指出，大型語言模型在電網輔助運營時可能遭到提示式越獄攻擊；研究以三種越獄方法與三款主流模型測試、涵蓋九項NERC可靠度標準。結果整體攻擊成功率約三成，DeepInception效果明顯，顯示導入LLM須強化提示與使用審核。並關注內部授權使用風險。