大型語言模型 - Agents Report

速報

2024 年大型語言模型偏見評估：性別、種族與年齡差異揭露與去偏矛盾

本研究針對四款 2024 年新發表的大型語言模型（Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus、GPT‑4o）進行性別、種族與年齡偏見的系統性測試。結果顯示，模型在職業描述上女性出現率比美國勞工統計局資料高出 37%，而在犯罪情境中，性別偏差達 54%、種族偏差 28%、年齡偏差 17%。