pcsp - Agents Report | 代理人報告

深度分析

面對生活模擬遊戲的規模化NPC挑戰，研究提出pcsp：以凍結LLM嵌入加低秩投影，訓練單一共享RL策略並以InfoNCE保持軌跡一致性。在300人測試上，達到最高17×優於隨機、語意—行為Spearmanρ≈0.73，且推論比LLM基線快22×。