強化學習 - Agents Report

深度分析

本文在二間旅館的定價模擬中揭示一種常被忽視的失效模式：單一數值回報（例如 RevPAR）可能掩蓋非市場化的定價行為。研究指出，部分觀測下的競爭者狀態會把目標行為變成分布式標的，確定性值函數或單點複製會把未解的隱含不確定性壓縮成捷徑行為。