速報 Hidden Utility Bandit(HUB)與 Active Teacher Selection:為多教師回饋設計的獎勵學習框架 本研究指出,主流獎勵學習常假設人類回饋來自單一教師,忽略了來自大規模、異質群體的差異性。作者提出Hidden Utility Bandit(HUB)框架,將教師在理性、專長與成本上的差異數學化建模,並據此發展Active Teacher Selection(ATS)演算法,透過主動學習策略決定何時與向誰詢問回饋。