速報 CURE-MED 與 CUREMED-BENCH:強化多語醫療推理的課程式強化學習方案 大語言模型在多語醫療推理仍不穩定。本研究釋出CUREMED-BENCH資料集並提出CURE-MED框架,結合代碼切換感知監督微調與群體相對策略優化的課程式強化學習,顯著提升多語語言一致性與推理正確率,7B與32B模型分別達成約85%/54%與95%/70%。