深度分析 BERT-as-a-Judge:以參考答案降低大型語言模型評估成本的實驗驗證 本研究指出傳統詞彙評估與人類判斷相關性低,提出BERT‑as‑a‑Judge以編碼器方式評估答案正確性,只需輕量訓練即超越詞彙基線,且效能媲美大型LLM評審,提升評估效率與可靠性。