TAC 基準 - Agents Report | 代理人報告

深度分析

TAC 基準測試：AI 旅行代理人在動物福利上的行為評估

隨著大型語言模型被當作自主代理人執行旅遊預訂，研究推出首個「旅行代理人同情指標」衡量模型是否避免動物剝削選項。測試七款前沿模型發現全部低於 64% 基準，最高僅 53%，顯示目前 AI 代理人在倫理層面仍有顯著缺口。加入一行關注動物福利的系統提示，可使模型提升 47% 至 63% 表現，但提升不足 12%。