大型語言模型 - Agents Report

BenGER

研究針對德國法的從屬式法律推理提出BenGER基準，收錄596道試題與531個短答題。採用LLM-as-a-Judge與三位盲審交叉驗證，評估12款大型語言模型，結果顯示封閉旗艦模型領先，而人機共創優於單靠人力。此外文章探討評分可靠性與系統差異。