深度分析 JMedEthicBench:以多回合對話評估日語醫療領域大型語言模型(LLM)安全性 隨著大型語言模型在臨床應用的增加,評估其醫療安全成為必要。JMedEthicBench 提出首個以日本醫師會67項指引為基礎的多回合醫療安全基準,透過自動化發現七種 jailbreak 策略生成逾五萬組對話,對27款模型進行評測。