深度分析 回譯測試揭示多語言基準盲點:Lost in Translation (LiT) 評測新方法 傳統多語言基準偏向測試數學推理與事實回憶,未能評估真實語言能力。研究者提出回譯測試,以先翻譯再回譯比對語意差距,作為多語言能力指標,與 LMArena 用戶評分相關係高達 0.94。此方法免除人工參考翻譯,並推出全球語言的 Lost in Translation 基準。