獎勵學習 - Agents Report

速報

Hidden Utility Bandit（HUB）與 Active Teacher Selection：為多教師回饋設計的獎勵學習框架

本研究指出，主流獎勵學習常假設人類回饋來自單一教師，忽略了來自大規模、異質群體的差異性。作者提出Hidden Utility Bandit（HUB）框架，將教師在理性、專長與成本上的差異數學化建模，並據此發展Active Teacher Selection（ATS）演算法，透過主動學習策略決定何時與向誰詢問回饋。