深度分析 QIMMA:以品質驗證重構阿拉伯語大型語言模型(LLM)評測管線 阿拉伯語大型語言模型的評測長期分散且缺乏品質把關。QIMMA採取先驗證後評估的多階段流程,結合自動多模型篩查與母語者複核,並修正程式題目文本與格式。整合多領域、公開逐樣本推論後,發現既有基準存有系統性品質問題,修正後排行榜更接近模型實際能力。