模型安全 - Agents Report

深度分析

Safetensors 正式加入 PyTorch 基金會：提升開源模型安全與序列化標準

Safetensors 為避免pickle造成惡意程式執行的風險，採用JSON標頭加原始張量資料的簡潔格式，已成為HuggingFaceHub的預設模型存儲方式。加入PyTorch基金會後，提供社群中立治理，確保未來模型安全與跨平台載入持續進化。

深度分析

「否定敏感度指標 (NSI)」揭示大型語言模型在醫療與金融等高風險領域的安全盲點

研究發現大型語言模型在處理否定指令時常出錯，開源模型在簡單否定下錯誤贊同禁令高達77%至100%，商業模型亦出現19%至128%的極端波動，醫療情境較金融情境更易受影響。作者提出否定敏感度指標(NSI)作為安全治理度量，並建議以領域門檻分層認證，降低高風險應用的安全風險。

深度分析

大型語言模型的領域特定消除：降低網路安全拒絕率的實驗與分析

研究指出安全對齊在大型語言模型中未區分領域，導致網路安全操作受限。作者利用正交投影從模型權重中移除特定拒絕向量，對1兆參數Kimi K2進行領域特定消除。結果顯示網路安全拒絕率從100%降至7%，而其他領域的安全防護仍基本保留。此外，研究發現安全訓練方式與模型架構是影響領域特定消除成效的關鍵因素。

速報

快速辨識大型語言模型拒絕子空間：RFM 演算法突破

研究團隊將遞迴特徵機器（Recursive Feature Machine, RFM）演算法結合探測器初始化，成功在數秒內於推理型與非推理型大型語言模型（如 Qwen 3、Qwen 2.5）中找出多維度的拒絕子空間。相較於傳統子空間抽取方法，RFM 不僅計算效率更佳，且在消融測試中表現更優。

深度分析

「MetaBreak」利用特殊代幣突破大型語言模型安全防護的研究與實驗

MetaBreak研究發現，利用聊天模型的特殊代幣注入，可同時繞過內部安全對齊與外部內容審查，實現對線上大型語言模型的越獄。四種攻擊原語在實驗室與主流平台測試，成功率較傳統提示工程高出34.8%。此結果顯示僅刪除特殊代幣的防禦不足，需重新設計AI服務的安全機制。

深度分析

錯誤訊息隱含權威與工具串流注入：VATS 在 Gemini、GPT‑5.5 等模型上的安全評估

ModelContextProtocol廣泛使用後，工具錯誤訊息具隱含權威，可觸發代理人校正模式繞過安全檢查。VATS框架針對七個語言與結構維度生成惡意錯誤JSON，於Gemini3.1、GPT‑5.5、GLM‑5.1、Qwen3四大模型測試，錯誤路徑注入成功率提升至近百%，顯示模型層仍存系統性風險。

OpenAI

OpenAI 法庭證詞揭露：持股、董事會分歧與模型安全研究變動

馬斯克對OpenAI的訴訟進入尾聲，前首席科學家出庭揭露其在營利部門的高額持股並描述董事會內鬥與高階募資抉擇。證詞指出，關鍵安全小組曾主導長期模型風險評估，但隨部分高層離職而解散；同時與微軟的雲端與營收分成協議，成為推動商業化的關鍵因素。這場爭端將塑造OpenAI未來治理與合作利益分配。

GPT

Mira Murati 稱 Sam Altman 就 GPT 模型安全流程陳述不實

在 Musk v. Altman 審訊中，前 OpenAI 技術長 Mira Murati 作證，指控執行長 Sam Altman 在新 GPT 模型是否需通過部署安全委員會一事對她說謊。她表示曾向公司法務確認，發現雙方說法不一致，為慎重仍將模型送交委員會審查；此證詞成為董事會對 Altman 信任疑慮的關鍵一環。

深度分析

心理測量式後門偵測與自動卸載框架：模型逆向投射與Psycho‑Pass 評估

隨著深度模型被廣泛部署，後門攻擊成為安全隱憂。研究提出結合心理測量與模型逆向投射的偵測與自動卸載框架，透過人工心像生成與貝氏推論估計感染機率，並以自學與卸載機制自動剔除觸發模式。實驗顯示在 MNIST 與 CIFAR 上可降低超過四成的歧視指標，同時維持模型準確度。

深度分析

Qwen‑Scope：利用稀疏自編碼器實現大型語言模型的即時導向與安全分析

Qwen 團隊近期釋出 Qwen‑Scope，提供一套針對 Qwen3 系列模型訓練的稀疏自編碼器 (SAE) 工具。透過將高維隱層激活分解成稀疏特徵，開發者可以在推論階段直接調整模型行為、在不執行完整評估的情況下分析基準測試、以極少資料建立多語言毒性分類器，甚至在微調與強化學習階段使用特徵訊號抑制語言混雜或重複輸出。

速報

LLM精神病理：揭露大型語言模型的五種認知崩解

研究指出大型語言模型作為互動代理時出現一類行為性失效，傳統「幻覺」不足以描述。作者提出LLM精神病理框架，定義五大特徵：現實邊界崩解、植入性錯誤信念持續、在不可能條件下邏輯混亂、自我模型不穩定與認知過度自信。並以五軸量表LCIS對模型進行對抗性測試，結果提出三級嚴重度分類並指出糾正壓力可能惡化狀態。

人工智慧

影響人工智慧的10項關鍵議題：模型安全、晶片與軍用無人機

MIT Technology Review 將多年分析濃縮為「10 Things That Matter in AI Right Now」清單，逐日拆解當前影響 AI 的核心議題。內容涵蓋模型安全與外流疑慮、企業在員工端部署追蹤以供訓練、AI 與暴力行為指涉、科企大筆併購與合作、國防採購與無人機資金需求等多重面向。