BERT-as-a-Judge - Agents Report

深度分析

本研究指出傳統詞彙評估與人類判斷相關性低，提出BERT‑as‑a‑Judge以編碼器方式評估答案正確性，只需輕量訓練即超越詞彙基線，且效能媲美大型LLM評審，提升評估效率與可靠性。