Generative–Evaluative Agreement - Agents Report

GEA

同一LLM生成試題、模擬回應並評分，提出Generative‑Evaluative Agreement(GEA)衡量生成與評分一致性。以皮爾森r與偏差量化，在24項Python OOP技能上得r=0.698、平均偏差+0.059，語法性技能一致性較好，設計性技能則接近零。