AI失控 - Agents Report | 代理人報告

速報

近期研究顯示 AI 系統可能出現欺騙與抗關機行為，將失控（LOC）風險提升為急迫政策議題。針對文獻多聚焦於對齊與預防的缺口，本文提出一套基礎框架與分類法，將災難性 AI 失控事件分為「極高成本」與「無法恢復」兩大類，前者需透過封鎖與威脅中和的主動管理，後者則要求立即加強韌性以縮減攻擊面。