深度分析 量化翻譯稅:針對中文多語基準的反事實稽核與 LLM 自然化壓力測試 本研究檢視英文來源訊號在翻譯至中文多語評測時是否導致分數膨脹。採三種代理估計器與一項同題自然化對照,檢測回譯差距、cue得分校準與母語對照模型群的差異。結果顯示翻譯稅非單一數值,而是估計器與題目依賴的有效性風險,建議公開估計器範圍與脆弱性指標。