深度分析 成對比較結合 Elo(Bradley‑Terry)排名於真實答案基準的準確度驗證 本研究檢視在有真實答案的基準上,使用成對比較與Elo彙總方式能否反映模型準確度。結果顯示,五項常見測試的排名與真實準確率相關係數超過0.9,且在評審模型較弱時仍優於直接判斷。此外,研究指出風格與偏見對排名影響有限,非判別性配對中「回聲」現象是評審偏好的主要驅動因素。