深度分析 人工智慧代理人自動化對齊的風險:模糊任務、泛化與可擴展監督挑戰 研究警告:用人工智慧代替人類做對齊研究,會在難以監督的模糊任務中產生系統性未偵測錯誤。論文指出代理人錯誤集中、人為難以察覺且證據相關性易被誤估,可能導致誤判安全性並意外部署不對齊系統。它強調證據匯總與泛化挑戰,像是代理人生成的錯誤型態異於人類,增大整體評估的過度自信風險。