深度分析 以題目層級資料與心理計量法(CTT)強化 AI 評估:OpenEval 的實務與影響 隨著生成式人工智慧進入高風險應用場景,現行基準評測面臨建構效度不足、資料汙染與快速飽和等問題。本文主張回歸題目層級(item-level)資料以建立嚴謹的評估科學:透過題目內容、逐題回應與統計指標進行細緻診斷,可揭露題目品質、干擾因子與能力映射。