多目標最佳化與不可通約抉擇:人工智慧代理的識別與解決困境
本文從技術實作角度檢視人工智慧代理在面對多目標不可通約抉擇時的設計限制。作者主張,現行以多目標最佳化為核心的代理在結構上無法識別不可通約,進而引發阻塞、不可信與不可靠三種對齊問題;即便能識別,代理也難以非任意地解決難選,常見的人類參與機制在許多決策情境不足以緩解。
多目標最佳化下的「難選」:AI 代理的兩道限制
作者直接指出核心問題:以多目標最佳化為基礎的人工智慧代理,在遇到目標彼此不可通約的難選情境時,會產生識別與解決兩項根本性限制。
首先是識別問題。代理在結構上難以判定選項是否屬於不可通約,這種無法辨識產生三類具體的對齊風險:阻塞、代理不可信以及決策不可靠。文中也批判常見的人類在回路中安排(Human-in-the-Loop)在許多決策環境不足以全面緩解這些風險。
其次是解決問題。即便代理能識別不可通約,它仍缺乏非任意的自治機制來合理地解決難選;若透過自我修改目標來選擇,則可能只是任意地決定結果。為此,作者概念性提出以集合式或多模型架構作為替代路徑,並在結尾討論若賦予代理更高自治權,會帶來哪些不透明的規範與倫理取捨。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。