零次學習 - Agents Report

速報

大型中文語言模型多領域能力測試：醫學、法律、心理與教育的零次學習評估

針對大型中文語言模型缺乏跨領域能力評估，研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學（含15項子任務）與教育（含8項子任務）等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著，整體最高平均零次準確度為0.512，臨床醫學由單一模型達到0.693，而法律領域表現普遍低落，最高僅0.239。