題目層級基準 - Agents Report

深度分析

隨著生成式人工智慧進入高風險應用場景，現行基準評測面臨建構效度不足、資料汙染與快速飽和等問題。本文主張回歸題目層級（item-level）資料以建立嚴謹的評估科學：透過題目內容、逐題回應與統計指標進行細緻診斷，可揭露題目品質、干擾因子與能力映射。