量化質性判斷 - Agents Report

速報

生成式人工智慧快速發展暴露出評估方法的缺陷。QQJ提出以專家設計的多維量表為錨點，並用小量高品質標註校準大型語言模型評估者，使評估與人類判斷對齊。實驗顯示QQJ在一致性與診斷能力上優於既有自動或無約束LLM評估。並在文本與圖像生成任務上展現較高人類對齊度與穩定性，能識別幻覺與意圖不符等關鍵失誤。