深度分析 GR-Ben:針對流程獎勵模型(PRM)的泛域步驟層級錯誤檢測評估 GR-Ben 是一套針對流程獎勵模型(PRM)的通用推理基準,設計目標是在科學與邏輯兩大類、九個子領域中,評估模型找出「步驟層級錯誤」的能力。資料集含多來源生成的解法、人工標註與交叉驗證步驟,強調多樣化解法覆蓋以反映實務場景。