大型中文語言模型多領域能力測試:醫學、法律、心理與教育的零次學習評估
針對大型中文語言模型缺乏跨領域能力評估,研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學(含15項子任務)與教育(含8項子任務)等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著,整體最高平均零次準確度為0.512,臨床醫學由單一模型達到0.693,而法律領域表現普遍低落,最高僅0.239。
大型中文語言模型迎來跨領域能力檢測
研究指出,儘管中文大型語言模型快速發展,但缺乏系統化的多領域測評。研究提出一套針對醫學、法律、心理與教育的多任務準確度測試,醫學細分為15項子任務,教育包括8項子任務,旨在同時檢驗知識廣度與深度。
測試結果顯示,模型間在零次學習(zero-shot)表現上有明顯差距,最佳與最差平均相差近18.6百分點。四大領域中,所有模型的最高平均零次準確度為0.512;在臨床醫學子域,單一模型達到0.693的零次準確度,是所有子任務中的最高紀錄;而法律領域表現普遍偏低,最高零次準確度僅0.239。
作者認為,透過同時評估多學科的廣度與深度,此測試能更精準指出模型短板,為後續改進與應用風險控管提供參考。
延伸閱讀
- 大語言模型評估使用者狀態可靠性不足:GPT-4o 與 Gemini 證據揭示風險
- 數位人格與檢索擴充:大型語言模型模擬問卷受訪者的可行性與限制
- 局部校準與貝氏修正:化解隱層統計異質性以提升機器生成文本檢測效能
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。