多語評測 - Agents Report

深度分析

本研究檢視英文來源訊號在翻譯至中文多語評測時是否導致分數膨脹。採三種代理估計器與一項同題自然化對照，檢測回譯差距、cue得分校準與母語對照模型群的差異。結果顯示翻譯稅非單一數值，而是估計器與題目依賴的有效性風險，建議公開估計器範圍與脆弱性指標。