大型語言模型評估 - Agents Report

深度分析

JE‑IRT 幾何式評估框架：以向量空間重新詮釋大型語言模型能力

隨著大型語言模型快速迭代，傳統以單一分數評估已顯不足。研究提出JE‑IRT幾何嵌入框架，將模型與題目同投射於共享空間，方向代表語意、向量長度代表難度，透過幾何交互預測正確率。實驗證明此法能解釋跨領域表現下降，並以輕量嵌入快速納入新模型，顯示出與人為科目劃分不同的內部分類。

深度分析

成對比較結合 Elo（Bradley‑Terry）排名於真實答案基準的準確度驗證

本研究檢視在有真實答案的基準上，使用成對比較與Elo彙總方式能否反映模型準確度。結果顯示，五項常見測試的排名與真實準確率相關係數超過0.9，且在評審模型較弱時仍優於直接判斷。此外，研究指出風格與偏見對排名影響有限，非判別性配對中「回聲」現象是評審偏好的主要驅動因素。

深度分析

BERT-as-a-Judge：以參考答案降低大型語言模型評估成本的實驗驗證

本研究指出傳統詞彙評估與人類判斷相關性低，提出BERT‑as‑a‑Judge以編碼器方式評估答案正確性，只需輕量訓練即超越詞彙基線，且效能媲美大型LLM評審，提升評估效率與可靠性。

深度分析

NVIDIA Nemotron 3 Nano 30B 開放評估全攻略：NeMo Evaluator 使用指南與結果分析

隨著大型語言模型快速發展，評估結果的可比性變得更具挑戰。NVIDIA 以 Nemotron 3 Nano 30B A3B 推出完整開放評估食譜，使用 NeMo Evaluator 統一基準、提示與執行設定，支援多種推理端點。實驗顯示模型在多項任務上取得具體分數，且提供結構化日誌供深入分析，提升評估透明度與可重現性。