深度分析 LLM-as-a-Judge 系統性評測:風格偏差影響與去偏策略比較 LLM作為評判已成為大量評估的主流。本研究比較九種去偏策略,橫跨五款判官模型、三個基準與四類偏差,並以受控資料精確量測偏差大小。研究指出風格偏差占主導地位,判官普遍偏好簡潔但能辨識真實完整性;對部分模型,組合預算與CoT強制能帶來統計顯著的提升。