雙可預測性(Bipredictability):為部署中強化學習建立運行時可靠性量測

部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P,一個資訊理論指標,量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制,且能更早偵測耦合異常。以資訊數位孿生IDT監測,可在低延遲下顯著提高耦合退化偵測率,勝過僅靠獎勵監控。

雙可預測性資訊數位孿生示意

雙可預測性揭示代理交互的資訊代價

部署中的強化學習系統缺少可直接應用於運行時的可靠性度量。研究團隊提出雙可預測性P,一個封閉式資訊理論指標,用以衡量代理與環境閉環互動把不確定性轉換為共同可預測性的效率。

在理論層面,P受香農熵次可加性的限制,存在上界0.5;且具有回應性的代理會把P壓抑到更低數值,研究將此結構性現象稱為代理的資訊成本。團隊在21個訓練完成的連續控制代理中觀察到P約為0.33±0.02,同樣的抑制跡象也出現在語言對話、卷積視覺系統與經典力學基準,指出P不是演算法層面的產物,而是代理性交互的基礎特性。

為了在實務上量測P並用於運行時監控,作者提出資訊數位孿生(IDT)架構。IDT從外部互動資料串估算P,並能及早偵測代理與環境間的耦合退化;實驗顯示IDT在偵測成功率與反應時間上皆顯著優於僅依賴獎勵的監控方法。研究指出,P與IDT可作為部署中自主系統的缺失偵測與自我調節的關鍵量測層。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more