大型語言模型 - Agents Report

深度分析

隨著大型語言模型被廣泛用於自動評分，研究發現提示注入攻擊可讓學生藉由在答案前加入特製指令提升分數。實驗顯示，即使部署現有防禦機制，通用攻擊仍能成功操控評分結果，對評量公平性構成嚴重威脅。研究涵蓋四大科目超過三十題，並比較黑盒與白盒防禦效能，指出現有防禦仍不足以完全阻擋攻擊。