深度分析
VERA-MH 框架:多回合臨床模擬評估心理健康AI自殺風險
聊天機器人進入心理健康場域帶來風險.VERA-MH用臨床設計的三階段流程:由一個LLM扮演使用者模擬多回合對話;再以LLM當裁判配合臨床量表逐題判定;最後彙整評分.實驗對多家主流模型進行安全評估,提供部署前檢測工具.強調臨床驗證與開源透明.可作為業界預檢基準.
深度分析
聊天機器人進入心理健康場域帶來風險.VERA-MH用臨床設計的三階段流程:由一個LLM扮演使用者模擬多回合對話;再以LLM當裁判配合臨床量表逐題判定;最後彙整評分.實驗對多家主流模型進行安全評估,提供部署前檢測工具.強調臨床驗證與開源透明.可作為業界預檢基準.
深度分析
自2022年起對話式LLM演進為可派生子代理的代理系統,帶來新的安全風險。本文以繼承模型分析父代理記憶如何傳給子代理,揭露記憶繼承、資源控管、異步狀態與未授權終止等四類弱點,並在OpenClaw等框架驗證後提出能力註冊與記憶投影等防禦措施。
深度分析
近期連續六起AI程式碼代理安全漏洞揭露,從Codex分支名稱竊取GitHub令牌到Claude Code指令鏈超過50條繞過拒絕規則,攻擊者可直接以代理憑證存取生產系統,突顯企業在身分治理與最小權限上的缺口並促使業界重新檢視AI代理的安全治理框架
速報
一篇來自 ArXiv 的研究針對「vibe coding」在建築業的安全風險進行實證評估,讓非技術使用者以自然語言指示大型語言模型產生可執行程式。
深度分析
在獎勵信號與真實安全目標可能脫鉤的場景,研究提出 EPO‑Safe(Experiential Prompt Optimization for Safe Agents),讓大型語言模型在凍結權重下,透過每步只有一個二元危險警示的極度稀疏回饋,反覆生成計畫、觀察警示、反思並以自然語言演化出可審計的行為規範。