深度分析 動態貝式博弈下的誠實性加權機制:將行動平台LLM線上微調後悔降至 O(√T) 本研究針對行動群眾外包環境下,來自多位行動使用者的偏好回饋可能被策略性地虛報,導致以人類回饋微調大規模語言模型(LLM)時效果退化。作者以動態貝式博弈建模平台與多位策略性工人之間的線上互動,設計一種能根據回饋準確度動態調整權重的線上加權彙整機制,並證明該機制可誘導誠實回饋且將總體後悔(regret)從線性降為次線性 O(√T)。