基準驗證

深度分析

阿拉伯語大型語言模型（LLM）評測長期面臨基準分散、翻譯偏差與品質未驗證等問題。QIMMA提出「先驗證再評估」的品質優先流程，對來自14個資料來源、109個子集、超過52,000筆樣本進行多階段自動化與人工審查，並率先把程式碼測試納入阿拉伯語排行榜。

深度分析

阿拉伯語大型語言模型的評測長期分散且缺乏品質把關。QIMMA採取先驗證後評估的多階段流程，結合自動多模型篩查與母語者複核，並修正程式題目文本與格式。整合多領域、公開逐樣本推論後，發現既有基準存有系統性品質問題，修正後排行榜更接近模型實際能力。