LLM 安全 - Agents Report | 代理人報告

深度分析

FP16、INT8、INT4 量化與溫度設定對 LLM 安全對齊的系統性評估（161 組方案）

本研究探討在部署大型語言模型時，量化與抽樣溫度對安全對齊的共同影響。透過 9 種指令微調模型、3 種精度與 6 種溫度組合，評估 161 種配置。結果顯示，標準 INT4/INT8 量化對大多數模型安全影響有限，溫度提升才是主要不穩定因素，且兩者互動多為次加性。此結果對未來模型部署策略提供實務指引。

深度分析

PatchOptic：投影讀取與驗證式 JSON Patch 打造安全共享狀態的 LLM 工作流程

隨著大型語言模型在多步驟工作流程中共享結構化狀態，PatchOptic以投影式讀取結合驗證式JSONPatch，提供本地更新在全域上合法，實驗顯示泄漏率下降至0.1次/回合，代幣成本亦大幅降低。此機制亦支援工作階段委派與獨立子流程組合，未來 AI 多代理治理提供擴充基礎。

深度分析

HalluSquatting：LLM 幻覺資源佔領與 AI 編碼助手安全風險分析

研究顯示，AI 大型語言模型易受 HalluSquatting 攻擊，攻擊者搶佔熱門 repo 名稱並注入反向殼程式，能在 Cursor、GitHub Copilot 等編碼助手上感染裝置，造成大型僵屍網路與勒索風險。研究者指出六大模型均有相同幻覺，攻擊者註冊可搶占的 repo，即可在多個 AI 編碼工具植入惡意程式。

深度分析

梯度編輯與 LoRA 結合：Epistemic Goggles 提升 LLM 虛構辨識能力的機制

研究指出，傳統在文件前後加上否定標示仍會讓大型語言模型相信虛構內容，作者提出Goggles模組於微調梯度中植入epistemic框架，實驗顯示模型能以約91%正確辨識虛構資訊，同時保持原有能力。此外，Goggles也能標記為Redwood AI安全評估，持續微調仍保留框架。

深度分析

VERA-MH 框架：多回合臨床模擬評估心理健康AI自殺風險

聊天機器人進入心理健康場域帶來風險.VERA-MH用臨床設計的三階段流程：由一個LLM扮演使用者模擬多回合對話；再以LLM當裁判配合臨床量表逐題判定；最後彙整評分.實驗對多家主流模型進行安全評估，提供部署前檢測工具.強調臨床驗證與開源透明.可作為業界預檢基準.

深度分析

多代理網路中的記憶繼承：LLM代理的攻擊路徑與防禦設計

自2022年起對話式LLM演進為可派生子代理的代理系統，帶來新的安全風險。本文以繼承模型分析父代理記憶如何傳給子代理，揭露記憶繼承、資源控管、異步狀態與未授權終止等四類弱點，並在OpenClaw等框架驗證後提出能力註冊與記憶投影等防禦措施。

深度分析

六大 AI 程式碼代理認證濫用漏洞詳解：從 Codex 分支竊取到 Claude Code 50 指令鏈繞過

近期連續六起AI程式碼代理安全漏洞揭露，從Codex分支名稱竊取GitHub令牌到Claude Code指令鏈超過50條繞過拒絕規則，攻擊者可直接以代理憑證存取生產系統，突顯企業在身分治理與最小權限上的缺口並促使業界重新檢視AI代理的安全治理框架

速報

Vibe Coding 與大型語言模型：建築安全的沉默失敗警訊

一篇來自 ArXiv 的研究針對「vibe coding」在建築業的安全風險進行實證評估，讓非技術使用者以自然語言指示大型語言模型產生可執行程式。

深度分析

EPO‑Safe：利用二元危險訊號讓凍結權重 LLM 在少樣本下演化出操作性安全規範

在獎勵信號與真實安全目標可能脫鉤的場景，研究提出 EPO‑Safe（Experiential Prompt Optimization for Safe Agents），讓大型語言模型在凍結權重下，透過每步只有一個二元危險警示的極度稀疏回饋，反覆生成計畫、觀察警示、反思並以自然語言演化出可審計的行為規範。