大型語言模型 大型語言模型幽默對齊基準:以 Cards Against Humanity 測試結果分析 本研究以《Cards Against Humanity》測試大型語言模型幽默對齊。五種模型在9,894回合中挑選最搞笑回應,均超過隨機基準但與人類偏好差距仍大。模型間共識高於與人類,且受位置與內容偏差影響,顯示幽默判斷可能受結構性因素左右。