深度分析
開源 LLM 的脆弱性評估:基於 Overton 窗口的紅隊測試與模型家族差異
研究針對本地部署的開源大型語言模型與社群媒體影響風險進行紅隊測試。研究提出LLMOvertonWindow量化框架並評估簡單提示攻擊、Few-Shot與其他繞過技術對立場表達範圍的影響。結果顯示模型在左傾立場上較易被驅動,繞過效果家族與模型相關,防禦需依家族定制。
深度分析
研究針對本地部署的開源大型語言模型與社群媒體影響風險進行紅隊測試。研究提出LLMOvertonWindow量化框架並評估簡單提示攻擊、Few-Shot與其他繞過技術對立場表達範圍的影響。結果顯示模型在左傾立場上較易被驅動,繞過效果家族與模型相關,防禦需依家族定制。
深度分析
隨著大語言模型被廣泛應用於金融領域,研究提出風險隱蔽攻擊(RCA)多輪框架,並建構 FIN‑Bench 基準測試,結果顯示在九款主流模型上平均成功率超過九成,其中 GPT‑4.1 的成功率達 98.28%,OpenAI o1 為 97.56%。研究呼籲金融應用急需更嚴格的審核機制。