醫療AI - Agents Report | 代理人報告

速報

衡量關鍵：生成式、多模態與代理型醫療人工智慧基準框架

研究為生成式、多模態與代理型醫療AI制定基準框架。透過臨床任務設計、跨模態評測與人機互動指標,評估生成品質、推理一致性與代理能力。結果指出現有模型在一致性、可解釋性與臨床可用性仍有差距,建議採多維標準導向應用。並強調人機協作評估與安全性監測。

深度分析

RAG 醫療聊天機器人洩露風險：向量資料庫、API 配置與病患資料外洩實證

本文改寫自一項匿名安全評估，檢視一個公開可訪問的病患面向 RAG（檢索增強生成）醫療聊天機器人。研究採取非破壞性的兩階段方法，先以大型語言模型輔助探索可能漏洞，再用瀏覽器開發者工具逐項驗證。結果揭示系統透過瀏覽器可讀的客戶端–伺服器通訊洩露大量敏感設定與紀錄，包括完整 RAG 配置、知識庫內容與最近存檔的病患對話。

DxChain

DxChain 臨床推理架構：Memory Anchoring、Med-ToT 與辯證驗證

醫療AI在處理雜亂電子病歷時易陷入「隧道視野」與診斷幻覺。研究提出DxChain，先建立病人全景檔案再規劃推理，架構以分階段記憶、策略規劃與選擇性辯證為核心，並導入醫療思維樹與天使惡魔辯證驗證以化解證據衝突。評測顯示於真實資料集具更高診斷一致性與可靠性。

深度分析

生成式人工智慧如何催生超級詐騙與醫療AI挑戰：攻防、監管與供應鏈影響

自生成式人工智慧普及以來，詐騙手法顯著升級，犯罪者利用大型語言模型自動撰寫誘騙郵件、生成深偽影音並執行自動化弱點掃描，讓攻擊更快且成本更低。與此同時，醫療場域開始導入AI協助記錄與影像判讀，初步研究顯示工具在精準度上有可觀表現，但尚未明確證實能改善病人臨床結局。

技術評測示意圖展示 LLM-as-a-Judge 在醫療問答完整性評估中的侷限。圖中對比了 General-Likert、Analytical-Rubric 與 Dynamic-Checklist 三種評分模式，並揭露了模型在偵測臨床關鍵遺漏（Omission）上的低召回率與推理分歧，強調了 Clinician-in-the-loop 在醫療 AI 安全中的必要性。

深度分析

以大型語言模型評估醫療回應完整性：方法、失敗模式與臨床限制

本研究在醫療對話評估情境下檢驗大型語言模型擔任裁判的可行性。研究比較三種評分細緻度與三款基礎模型，並在兩個臨床標註資料集上評估自動偵測回應是否遺漏關鍵資訊。結果顯示模型判斷接近機率水平且在需達高召回時仍需大量人類審核，顯示目前難以取代臨床人工審查。

BioClinicalBERT

利用 BioClinicalBERT 與深層嵌入聚類 (DEC) 自動化手術緊急程度分類

醫療資源分配壓力大，標記數據不足是 AI 醫療應用之痛。本研究提出一種結合 BioClinicalBERT 與非監督式聚類算法的框架，能自動將手術轉錄文本分類為三種緊急程度，並透過專家審核機制確保臨床準確性，為手術室排程與資源優化提供高效能的自動化工具。