深度分析
ASG(退火 Softmax)策略於 RLVR 多臂貝式強盜賭局的貝氏遺憾上界與實驗比較
研究探討在多臂貝式強盜賭局中,退火Softmax貪婪策略如何在不考慮不確定性的情況下仍能取得近最佳貝氏遺憾。結果顯示,於上尾線性正則先驗下,該策略達到O~(m+T/m)的遺憾率,與純貪婪方法等效,且在臂數與時間規模匹配時可達到O~(√T)的近最佳表現。
深度分析
研究探討在多臂貝式強盜賭局中,退火Softmax貪婪策略如何在不考慮不確定性的情況下仍能取得近最佳貝氏遺憾。結果顯示,於上尾線性正則先驗下,該策略達到O~(m+T/m)的遺憾率,與純貪婪方法等效,且在臂數與時間規模匹配時可達到O~(√T)的近最佳表現。
Mango
面對深層階層網站,從首頁啟動的傳統代理常導致無效探索。Mango先以輕量爬蟲與關鍵詞搜尋構建網站全域結構,再用BM25篩選候選URL,將URL選擇視為多臂賭博機並以ThompsonSampling動態分配預算,並以情節記憶記錄路徑避免重複訪問;在WebVoyager與WebWalkerQA上顯示出明顯成功率提升。