深度分析 大型語言模型文化對齊評估:多語言敘事道德生成實驗與結果 研究以跨語言故事道德生成評估大型語言模型的文化對齊。利用14種語言‑文化資料集,比較GPT‑4o與Gemini等模型與人類解讀的語意相似度與偏好。結果顯示模型可產出相似道德敘事,但跨語言變異與價值多樣性較低,凸顯模型在捕捉人類敘事多樣性上的限制。