逆傾向加權 (IPW) - Agents Report

深度分析

本文從理論與實務角度探討如何為離線策略評估（OPE）設計記錄策略（logging policy），以最小化基於逆傾向加權（IPW）估計的均方誤差。文章闡明一個核心的「報酬—覆蓋」權衡：把採樣機率集中於高報酬動作可降低觀測獎賞的變異，但可能忽略目標策略可能採取的行動，增加偏差或變異。