VeriSim 框架 - Agents Report

醫療大型語言模型

醫療大型語言模型在標準測試中表現優異，卻未捕捉真實臨床患者的記憶缺口與健康素養障礙。VeriSim 透過六大噪聲維度與 UMLS‑LLM 驗證機制，注入可控患者噪聲並保留醫學真相。實驗顯示模型準確率下降 15%~25%，對話長度延長 34%~55%，凸顯現有醫療 AI 與實務的差距。