深度分析 ASG(退火 Softmax)策略於 RLVR 多臂貝式強盜賭局的貝氏遺憾上界與實驗比較 研究探討在多臂貝式強盜賭局中,退火Softmax貪婪策略如何在不考慮不確定性的情況下仍能取得近最佳貝氏遺憾。結果顯示,於上尾線性正則先驗下,該策略達到O~(m+T/m)的遺憾率,與純貪婪方法等效,且在臂數與時間規模匹配時可達到O~(√T)的近最佳表現。