偏好學習 - Agents Report

速報

Human Label Variation（HLV）指標註者之間合情合理的分歧，反映人類觀點多樣性而非錯誤。作者主張HLV應作為有價值的信號納入模型訓練與評估，特別在大型語言模型與以人類回饋為基礎的對齊流程中愈發重要。論文指出現有偏好學習資料集常把多重標註壓平為單一標籤，這會抹去不同立場與判斷。