速報 QQJ:量化質性判斷的生成式人工智慧評估新框架 生成式人工智慧快速發展暴露出評估方法的缺陷。QQJ提出以專家設計的多維量表為錨點,並用小量高品質標註校準大型語言模型評估者,使評估與人類判斷對齊。實驗顯示QQJ在一致性與診斷能力上優於既有自動或無約束LLM評估。並在文本與圖像生成任務上展現較高人類對齊度與穩定性,能識別幻覺與意圖不符等關鍵失誤。