道德生成 - Agents Report

深度分析

研究以跨語言故事道德生成評估大型語言模型的文化對齊。利用14種語言‑文化資料集，比較GPT‑4o與Gemini等模型與人類解讀的語意相似度與偏好。結果顯示模型可產出相似道德敘事，但跨語言變異與價值多樣性較低，凸顯模型在捕捉人類敘事多樣性上的限制。