深度分析 離線策略評估的記錄策略:Neyman 配置、後驗收縮與軟貪婪實作 本文從理論與實務角度探討如何為離線策略評估(OPE)設計記錄策略(logging policy),以最小化基於逆傾向加權(IPW)估計的均方誤差。文章闡明一個核心的「報酬—覆蓋」權衡:把採樣機率集中於高報酬動作可降低觀測獎賞的變異,但可能忽略目標策略可能採取的行動,增加偏差或變異。