深度分析 高斯過程與偏好學習:建立代理人政策閘道的信任校準 研究聚焦在代理人何時可自主執行行動的信任校準問題。方法把二元核准/拒絕回饋視為偏好學習,利用高斯過程配合probit觀測模型估計人類風險容忍函數,並以不確定性驅動查詢在人類最需介入處升級。實驗顯示此策略能跨類動作泛化並在變動容忍度下回收邊界,顯著減少人工打斷。