GEA Generative–Evaluative Agreement (GEA):評估 LLM 驅動自適應評量一致性的指標與實驗結果 同一LLM生成試題、模擬回應並評分,提出Generative‑Evaluative Agreement(GEA)衡量生成與評分一致性。以皮爾森r與偏差量化,在24項Python OOP技能上得r=0.698、平均偏差+0.059,語法性技能一致性較好,設計性技能則接近零。