速報 Human Label Variation (HLV):把人類多元標註還給模型 Human Label Variation(HLV)指標註者之間合情合理的分歧,反映人類觀點多樣性而非錯誤。作者主張HLV應作為有價值的信號納入模型訓練與評估,特別在大型語言模型與以人類回饋為基礎的對齊流程中愈發重要。論文指出現有偏好學習資料集常把多重標註壓平為單一標籤,這會抹去不同立場與判斷。