LLM 評估 - Agents Report | 代理人報告

深度分析

阿拉伯語大型語言模型的評測長期分散且缺乏品質把關。QIMMA採取先驗證後評估的多階段流程，結合自動多模型篩查與母語者複核，並修正程式題目文本與格式。整合多領域、公開逐樣本推論後，發現既有基準存有系統性品質問題，修正後排行榜更接近模型實際能力。