大型語言模型 - Agents Report

深度分析

CONSCIENTIA：大型語言模型代理人在多代理紐約模擬中的策略學習與欺騙行為分析

本研究探討大型語言模型在多代理環境中的策略與信任機制，透過紐約市簡化模擬讓藍色代理追求高效導航，紅色代理以說服語言引導其走向廣告看板路徑。使用 Kahneman‑Tversky Optimization 迭代優化政策，藍色代理成功率提升至 57%，但仍高達 70% 易受欺騙，顯示策略行為受限且安全與效能間存矛盾。