群作用 - Agents Report | 代理人報告

速報

遊戲理論與群作用下的微調防護：探討大型語言模型的越獄局部化侷限

面對持續被發現的越獄（jailbreak）攻擊，研究者愈來愈仰賴對大型語言模型進行微調作為防禦手段。但微調何以提升在 adversarial 場景的健壯性，其理論基礎仍缺乏清晰說明。本文提出一個遊戲理論框架，將審核者（評估越獄）與訓練者視為雙人博弈，並以「群作用」這種數學結構正式化資料增強的變換對稱性。