LLM線上微調 - Agents Report

深度分析

動態貝式博弈下的誠實性加權機制：將行動平台LLM線上微調後悔降至 O(√T)

本研究針對行動群眾外包環境下，來自多位行動使用者的偏好回饋可能被策略性地虛報，導致以人類回饋微調大規模語言模型（LLM）時效果退化。作者以動態貝式博弈建模平台與多位策略性工人之間的線上互動，設計一種能根據回饋準確度動態調整權重的線上加權彙整機制，並證明該機制可誘導誠實回饋且將總體後悔（regret）從線性降為次線性 O(√T)。