深度分析 DALPHIN 多中心基準:比較 VLM(GPT-5、Gemini 2.5 Pro)與病理專用 PathChat 的實務表現 數位病理領域需獨立基準評估AI陪診工具。本研究推出DALPHIN多中心公開基準,用視覺問答VLM在序列診斷場景比較通用與病理專用模型。資料由多國多科病例組成且金標保留於受控平台,以防訓練資料外洩。結果顯示病理專用模型在若干任務接近專家水準,但表現具任務依賴性,強調持續獨立基準的重要性。