回譯測試 - Agents Report

深度分析

傳統多語言基準偏向測試數學推理與事實回憶，未能評估真實語言能力。研究者提出回譯測試，以先翻譯再回譯比對語意差距，作為多語言能力指標，與 LMArena 用戶評分相關係高達 0.94。此方法免除人工參考翻譯，並推出全球語言的 Lost in Translation 基準。