大型語言模型 - Agents Report

BiasGRPO

以 Group‑Relative Policy Optimization 優化 LLM 偏見獎勵的 BiasGRPO 研究

大型語言模型在預訓練階段會從海量文本中繼承社會偏見，導致在履歷篩選、內容審核等關鍵應用上可能產生歧視。BiasGRPO 以 DeepSeek 提出的群組相對策略優化（GRPO）為核心，取代傳統 PPO 的評論模型，透過對一組生成回應的相對獎勵正規化，減少高變異獎勵環境下的訓練不穩定，同時保留線上探索的優勢。