速報 大型中文語言模型多領域能力測試:醫學、法律、心理與教育的零次學習評估 針對大型中文語言模型缺乏跨領域能力評估,研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學(含15項子任務)與教育(含8項子任務)等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著,整體最高平均零次準確度為0.512,臨床醫學由單一模型達到0.693,而法律領域表現普遍低落,最高僅0.239。