線上學習 - Agents Report

深度分析

在缺乏先驗信念的序列機制設計中，研究提出分佈魯棒自適應機制DRAM，結合機制設計與線上學習，以縮小歧義集迭代估計代理人信念並以魯棒線性規劃降低支付。結果在高機率下保證誠實回報且達到近似最佳的累積遺憾率。框架支援結構化先驗與延遲回饋，並在數值模擬中驗證理論結果。