幽默對齊 - Agents Report

大型語言模型

本研究以《Cards Against Humanity》測試大型語言模型幽默對齊。五種模型在9,894回合中挑選最搞笑回應，均超過隨機基準但與人類偏好差距仍大。模型間共識高於與人類，且受位置與內容偏差影響，顯示幽默判斷可能受結構性因素左右。