Thompson Sampling

深度分析

研究探討在多臂貝式強盜賭局中，退火Softmax貪婪策略如何在不考慮不確定性的情況下仍能取得近最佳貝氏遺憾。結果顯示，於上尾線性正則先驗下，該策略達到O~(m+T/m)的遺憾率，與純貪婪方法等效，且在臂數與時間規模匹配時可達到O~(√T)的近最佳表現。