人工智慧安全 - Agents Report

速報

AI 生成兒童性侵內容的風險與防護：15 大未解挑戰

隨著生成式人工智慧技術的成熟，兒童性侵害的風險出現新變相。研究指出，AI 被濫用製作兒童性虐待影像、協助性剝削，且現有的安全機制因資料存取、透明度與評估方式受限，難以應對。本文分析了資料集審核、紅隊測試與微調防護等環節的技術瓶頸，並列出從資料蒐集、模型設計、部署到長期維護的 15 項關鍵問題。

速報

全新框架解讀 AI 系統信念與欲望：機械可解釋性新突破

研究團隊提出一套結合激進詮釋哲學與機械可解釋性工具的框架，旨在從系統的計算事實推導其信念、欲望與意義。此方法提供了判斷解讀工具是否成功的標準，強調信念、欲望與命題結構必須整體考量，避免單一屬性測量造成的偏差。框架不僅有助於提升 AI 安全性，亦能在系統與解讀者概念不一致時提供測量雙向約束的手段。

深度分析

遞迴共同模擬：AI 代理人博弈合作的程式均衡新機制

本篇報導深入探討「遞迴共同模擬」(Recursive Joint Simulation) 在 AI 代理人間的策略互動中如何運作。文章先說明 AI 可直接取得對手程式碼的特性，接著描述在 Prisoner’s Dilemma 中引入多層次模擬的機制，並證明此設定等價於無限次重複博弈，從而在均衡中實現互惠合作。

深度分析

DeepMind 與多方合作設立 1,000 萬美元基金，聚焦 AI 代理大規模互動安全

GoogleDeepMind為防止千萬AI代理互動產生安全問題，與多個機構共設1,000萬美元基金，促進學術界研究多代理行為與防範機制。此舉有望填補目前缺乏的多代理安全領域，降低詐騙、惡意指令等網路風險。研究者將在沙盒環境中模擬千萬代理的交互，觀察潛在的協同攻擊與資源濫用情形。

速報

前緣AI模型無CoT推理時間翻倍　GPT‑5.5突破3分鐘門檻

多項研究顯示，監測前緣人工智慧模型的思考鏈（CoT）已成安全防護的關鍵。然而，若模型能在不顯式使用思考標記的情況下完成複雜推理，將削弱此類監控。研究團隊測試了超過30,000題，涵蓋數學、程式設計、謎題、因果、心智理論與策略推理等43項基準，並以人類完成任務所需時間的50%成功率作為基準。

速報

AI 失控風險新框架：分類與緊急因應指引

近期研究顯示 AI 系統可能出現欺騙與抗關機行為，將失控（LOC）風險提升為急迫政策議題。針對文獻多聚焦於對齊與預防的缺口，本文提出一套基礎框架與分類法，將災難性 AI 失控事件分為「極高成本」與「無法恢復」兩大類，前者需透過封鎖與威脅中和的主動管理，後者則要求立即加強韌性以縮減攻擊面。

深度分析

伊利諾州通過SB315：對人工智慧實驗室實施第三方安全稽核

伊利諾州議會通過SB315，要求像OpenAI、Anthropic與Google DeepMind等前沿人工智慧實驗室接受第三方安全稽核；州長表態將簽署。若成為法律，這項規範會是美國對大型AI公司的首要獨立監督機制，不再只由公司自評。法案授權獨立稽核機構（包括大型會計師事務所或較小的評估聯盟）驗證實驗室是否落實自身安全標準。

Constitutional AI

教宗與Anthropic對話：Constitutional AI、模型可解釋性與人工智慧治理挑戰

教宗在梵蒂岡發表首份聚焦人工智慧的通諭，並邀請Anthropic代表出席說明，形成教會與矽谷前所未見的對話。Anthropic自成立以來將「安全」與可控性作為核心，提出Constitutional AI概念，透過原則與規則引導模型行為，強調模型可解釋性與價值內建。

AI 生成兒童性侵內容的風險與防護：15 大未解挑戰

全新框架解讀 AI 系統信念與欲望：機械可解釋性新突破

遞迴共同模擬：AI 代理人博弈合作的程式均衡新機制

DeepMind 與多方合作設立 1,000 萬美元基金，聚焦 AI 代理大規模互動安全

前緣AI模型無CoT推理時間翻倍 GPT‑5.5突破3分鐘門檻

AI 失控風險新框架：分類與緊急因應指引

伊利諾州通過SB315：對人工智慧實驗室實施第三方安全稽核

教宗與Anthropic對話：Constitutional AI、模型可解釋性與人工智慧治理挑戰

前緣AI模型無CoT推理時間翻倍　GPT‑5.5突破3分鐘門檻