大型語言模型 (LLM) - Agents Report

深度分析

研究針對本地部署的開源大型語言模型與社群媒體影響風險進行紅隊測試。研究提出LLMOvertonWindow量化框架並評估簡單提示攻擊、Few-Shot與其他繞過技術對立場表達範圍的影響。結果顯示模型在左傾立場上較易被驅動，繞過效果家族與模型相關，防禦需依家族定制。