決策估計係數 (DEC) - Agents Report

深度分析

本文針對隨機i.i.d.情境式bandits與bandit多類別分類，研究在每個情境下回報向量具L1稀疏性的情形。作者提出兩套互補方法：一為基於決策估計係數(DEC)的探索優化框架，提供資訊論式的樣本複雜度上界；另一為低變異探索的具體演算法，具可實作的閉式更新並延伸至情境組合半bandits。