速報
雙可預測性(Bipredictability):為部署中強化學習建立運行時可靠性量測
部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P,一個資訊理論指標,量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制,且能更早偵測耦合異常。以資訊數位孿生IDT監測,可在低延遲下顯著提高耦合退化偵測率,勝過僅靠獎勵監控。
速報
部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P,一個資訊理論指標,量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制,且能更早偵測耦合異常。以資訊數位孿生IDT監測,可在低延遲下顯著提高耦合退化偵測率,勝過僅靠獎勵監控。
速報
部署強化學習代理需維持觀察、動作與結果的閉環耦合。本研究提出「雙可預測性」(Bipredictability)與資訊數位孿生(IDT),用熵與互資訊衡量循環中不確定性的解析與方向性。實驗顯示IDT在多種擾動下比獎勵式監控更早檢測耦合退化,檢測率與延遲皆有優勢。