深度分析 SaFE-Scale 實驗:RadSaFE-200 評估下臨床 LLM 的安全與準確度脫鉤 醫療大語言模型通常以放大模型、延長語境或檢索來提升準確。本文以 SaFE-Scale 框架與 RadSaFE-200 評測不同部署條件,逐一比較乾淨證據、衝突證據、標準與代理式 RAG 等做法,發現只有高品質臨床證據能同時改善準確與安全,其他擴增手段無法取代。