速報 遊戲理論與群作用下的微調防護:探討大型語言模型的越獄局部化侷限 面對持續被發現的越獄(jailbreak)攻擊,研究者愈來愈仰賴對大型語言模型進行微調作為防禦手段。但微調何以提升在 adversarial 場景的健壯性,其理論基礎仍缺乏清晰說明。本文提出一個遊戲理論框架,將審核者(評估越獄)與訓練者視為雙人博弈,並以「群作用」這種數學結構正式化資料增強的變換對稱性。