GUARD - Agents Report | 代理人報告

速報

GUARD：把政府倫理指引變成可測試題的合規診斷工具

大型語言模型應用擴大，伴隨有害回應風險與監管壓力。研究提出GUARD（Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics），將政府發布的高階倫理指引自動化轉為具體違規測試題，藉由角色扮演檢驗模型回應是否違規。