Hidden Utility Bandit(HUB)與 Active Teacher Selection:為多教師回饋設計的獎勵學習框架
本研究指出,主流獎勵學習常假設人類回饋來自單一教師,忽略了來自大規模、異質群體的差異性。作者提出Hidden Utility Bandit(HUB)框架,將教師在理性、專長與成本上的差異數學化建模,並據此發展Active Teacher Selection(ATS)演算法,透過主動學習策略決定何時與向誰詢問回饋。
Hidden Utility Bandit與主動教師選擇
研究指出,傳統獎勵學習多假設所有人類回饋來自單一教師,未考量來自大規模、多元群體的差異。本研究提出Hidden Utility Bandit(HUB)框架,數學化刻畫教師在理性、專長與成本上的不同。
基於此框架,提出Active Teacher Selection(ATS)系列演算法,透過主動學習策略判斷何時以及向哪位教師詢問回饋。ATS會在查詢成本與教師品質間權衡,目標是用有限回饋提升代理人對目標函數的學習。
作者將方法應用於兩類真實場景——論文推薦與COVID-19疫苗測試——作為概念驗證。實驗結果顯示,主動選擇何時與詢問哪位教師的演算法,整體表現優於基準做法,能在複雜的決策權衡中提升學習與優化效果。
研究貢獻
一、提出HUB:為多教師回饋建模的數學框架;二、設計ATS:主動教師選擇演算法組合;三、示範在真實應用場景中處理回饋異質性與決策權衡的可行性。
延伸閱讀
- HiL‑Bench:以 Ask‑F1 評估 AI 代理人在資訊缺口時的求助能力
- ASMR-Bench:衡量 ML 研究程式碼審計與竄改偵測能力
- 合成資料與因果推論:分離式共變數生成與結果建模以降低 ATE 失真
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。