BenGER BenGER 資料集與方法:評估 LLM 在德國法從屬式推理的表現 研究針對德國法的從屬式法律推理提出BenGER基準,收錄596道試題與531個短答題。採用LLM-as-a-Judge與三位盲審交叉驗證,評估12款大型語言模型,結果顯示封閉旗艦模型領先,而人機共創優於單靠人力。此外文章探討評分可靠性與系統差異。