深度分析 AI代理人自動化對齊的風險:如何導致誤導性整體安全評估(OSA) 該論文討論以AI代理人自動化進行對超級人工智慧的對齊研究之風險。作者指出對齊研究包含難以監督的模糊任務,像是透過代理人評估對齊代理的誠實性、實驗代表性與證據相關性。這些代理可能產生系統性且難以偵測的錯誤,進而讓整體安全評估誤判。結果暗示在沒有可擴展監督或可靠泛化保證前,全面自動化對齊研究可能帶來災難性後果。