深度分析 QIMMA:以「先驗證再評估」提升阿拉伯語 LLM 評測品質 阿拉伯語大型語言模型(LLM)評測長期面臨基準分散、翻譯偏差與品質未驗證等問題。QIMMA提出「先驗證再評估」的品質優先流程,對來自14個資料來源、109個子集、超過52,000筆樣本進行多階段自動化與人工審查,並率先把程式碼測試納入阿拉伯語排行榜。