QIMMA QIMMA:以品質驗證與逐樣本輸出提升阿拉伯語 LLM 評測透明度 阿拉伯語NLP評估長期零散且缺乏品質驗證。QIMMA主張在評估前以多模型自動審核加母語者複核,整合109個子集與五大領域、逾五萬二千樣本並公開逐樣本輸出。結果顯示翻譯題材與標注錯誤會扭曲排名,規模非唯一成績指標。阿拉伯專精模型在語言文化任務明顯領先,而程式碼評測仍以多語模型佔優。