雙可預測性

雙可預測性資訊數位孿生示意

速報

雙可預測性（Bipredictability）：為部署中強化學習建立運行時可靠性量測

部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P，一個資訊理論指標，量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制，且能更早偵測耦合異常。以資訊數位孿生IDT監測，可在低延遲下顯著提高耦合退化偵測率，勝過僅靠獎勵監控。

雙可預測性與資訊數位孿生

速報

雙可預測性（Bipredictability）與資訊數位孿生：強化學習部署監控新指標

部署強化學習代理需維持觀察、動作與結果的閉環耦合。本研究提出「雙可預測性」(Bipredictability)與資訊數位孿生(IDT)，用熵與互資訊衡量循環中不確定性的解析與方向性。實驗顯示IDT在多種擾動下比獎勵式監控更早檢測耦合退化，檢測率與延遲皆有優勢。