阿拉伯語 NLP - Agents Report

QIMMA

阿拉伯語NLP評估長期零散且缺乏品質驗證。QIMMA主張在評估前以多模型自動審核加母語者複核，整合109個子集與五大領域、逾五萬二千樣本並公開逐樣本輸出。結果顯示翻譯題材與標注錯誤會扭曲排名，規模非唯一成績指標。阿拉伯專精模型在語言文化任務明顯領先，而程式碼評測仍以多語模型佔優。