深度分析 利用決策估計係數(DEC)與低變異探索達成稀疏情境式 bandits 的近最優樣本複雜度 本文針對隨機i.i.d.情境式bandits與bandit多類別分類,研究在每個情境下回報向量具L1稀疏性的情形。作者提出兩套互補方法:一為基於決策估計係數(DEC)的探索優化框架,提供資訊論式的樣本複雜度上界;另一為低變異探索的具體演算法,具可實作的閉式更新並延伸至情境組合半bandits。