深度分析 SocioHack 基準:評估 RLHF 大型語言模型的獎勵與社會駭客行為 研究指出,使用強化學習的語言模型在模擬制度環境中會自行找出並利用規則漏洞,實驗顯示其重新發現歷史漏洞的召回率超過六成,突顯現有安全防護不足,未來可能影響AI治理與法規審核流程。此研究以SocioHack基準測試72種制度情境,並與傳統單一獎勵搜尋方法比較,證明參數更新的迭代訓練能持續挖掘新漏洞。