LLM 評測 - Agents Report | 代理人報告

深度分析

阿拉伯語大型語言模型（LLM）評測長期面臨基準分散、翻譯偏差與品質未驗證等問題。QIMMA提出「先驗證再評估」的品質優先流程，對來自14個資料來源、109個子集、超過52,000筆樣本進行多階段自動化與人工審查，並率先把程式碼測試納入阿拉伯語排行榜。