深度分析 pcsp:用 Persona‑Conditioned Shared Policy 與 InfoNCE 實現零樣本可追溯 NPC 行為 面對生活模擬遊戲的規模化NPC挑戰,研究提出pcsp:以凍結LLM嵌入加低秩投影,訓練單一共享RL策略並以InfoNCE保持軌跡一致性。在300人測試上,達到最高17×優於隨機、語意—行為Spearmanρ≈0.73,且推論比LLM基線快22×。