阿聯酋方言 Alyah 基準:評估阿聯酋方言在大型阿拉伯語言模型中的表現 阿拉伯語雖廣泛使用,但方言評估不足。Alyah 基準以 1,173 句手工收集的阿聯酋方言多選題,測試模型對文化、語用與方言細節的理解。評測顯示指令微調模型普遍較佳,但在日常問候與方言層面仍有明顯不足,凸顯方言知識仍未被通用模型充分學習。