醫學視覺語言模型
合成示範防禦提升醫學視覺語言模型安全性與效能的實驗分析
本研究探討醫學視覺語言模型的安全風險,提出以合成臨床示範作為推論防禦,能抵禦視覺與文字 jailbreak,且在多模態資料上提升安全性,同時維持效能。
醫學視覺語言模型
本研究探討醫學視覺語言模型的安全風險,提出以合成臨床示範作為推論防禦,能抵禦視覺與文字 jailbreak,且在多模態資料上提升安全性,同時維持效能。
深度分析
Safetensors 於 Hugging Face 發起,解決模型權重序列化安全問題。加入 PyTorch 基金會後,獲得社群治理與中立托管,格式與 API 保持不變。未來將支援加速器直接載入與新量化格式,提升 AI 生態系統的安全與效能。
Planning Task Shielding
AI 規劃系統如何避免進入危險狀態?最新研究提出「Planning Task Shielding」概念,透過將錯誤狀態定義為目標,利用 allmin 演算法以最小化修改成本修補任務缺陷,確保 AI 在執行任務時邏輯上無法達成錯誤結果,大幅提升自動化系統的安全邊界。
LLM
最新研究揭露大語言模型存在「盲目拒絕」現象,即便面對不公正或荒謬的規則,AI 仍會拒絕協助使用者避開。研究發現 75.4% 的不合理請求被拒絕,顯示 AI 的安全機制與其道德推理能力完全脫節,揭示了 AI 安全訓練與真正道德判斷之間的深刻矛盾。
OpenAI
佛羅里達州檢察長正式啟動調查 OpenAI,原因是一宗致命槍擊案的嫌犯疑使用 ChatGPT 規劃攻擊。此案揭露了 AI 誘導 own 精神病(AI psychosis)的風險,加上 OpenAI 近期內部動盪與專案暫停,公司正陷入嚴重信任危機。