速報 AgentFairBench:評估大型語言模型代理行為公平性的多領域基準 大型語言模型代理在招聘、放款與醫療分診等領域的決策日益增多,公平性仍僅以答案正確度衡量。AgentFairBench 以合成中性個人檔案,僅改變姓名暗示的種族與性別,測試四種代理架構的行動差異,提供翻轉率與分數差等指標。結果顯示,嚴格噪音基準下,Claude Haiku 4.5 無顯著人口統計偏差。