激勵機制 - Agents Report

深度分析

本研究針對大型語言模型的知識基準提出KINA，透過專家錨點的覆蓋式選取與獎金門檻競賽機制提升代表性與審查品質，測試42種模型顯示頂尖模型正確率約53%。此外，增強測試顯示不同模型提升1.5至5.17分不等，且學科表現差異顯著，社會科學與自然科學的分布跨度分別達38.16與9.83分。