深度分析 Trace‑Prior RL:以市場先驗與 KL 懲罰修復 POMDP 下的市場對齊風險 本文在二間旅館的定價模擬中揭示一種常被忽視的失效模式:單一數值回報(例如 RevPAR)可能掩蓋非市場化的定價行為。研究指出,部分觀測下的競爭者狀態會把目標行為變成分布式標的,確定性值函數或單點複製會把未解的隱含不確定性壓縮成捷徑行為。