安全可靠性 - Agents Report

深度分析

傳統安全基準聚焦廣度，忽略重複提示的風險。研究提出加速提示壓力測試(APST)，以多次抽樣、溫度變化與提示擾動，統計失敗機率。結果顯示單次評分掩蓋模型在持續使用下的可靠性差異。