深度分析
QIMMA:以「先驗證再評估」提升阿拉伯語 LLM 評測品質
阿拉伯語大型語言模型(LLM)評測長期面臨基準分散、翻譯偏差與品質未驗證等問題。QIMMA提出「先驗證再評估」的品質優先流程,對來自14個資料來源、109個子集、超過52,000筆樣本進行多階段自動化與人工審查,並率先把程式碼測試納入阿拉伯語排行榜。
深度分析
阿拉伯語大型語言模型(LLM)評測長期面臨基準分散、翻譯偏差與品質未驗證等問題。QIMMA提出「先驗證再評估」的品質優先流程,對來自14個資料來源、109個子集、超過52,000筆樣本進行多階段自動化與人工審查,並率先把程式碼測試納入阿拉伯語排行榜。
深度分析
阿拉伯語大型語言模型的評測長期分散且缺乏品質把關。QIMMA採取先驗證後評估的多階段流程,結合自動多模型篩查與母語者複核,並修正程式題目文本與格式。整合多領域、公開逐樣本推論後,發現既有基準存有系統性品質問題,修正後排行榜更接近模型實際能力。