資訊理論 - Agents Report

速報

資訊理論驅動的多樣化選項學習：提升 Option-Critic 時間抽象效能

本研究針對 Option-Critic 框架在強化學習中面臨的兩大挑戰——選項行為高度相似與可用選項數量縮減——提出解決方案。作者引入資訊理論式內在獎勵以及新穎的終止目標，以促進選項集合的行為多樣性。

An infographic illustrating the Information Bound concept where optimal policy hiddenly contains n log m bits of environmental info, with details on MDPs, rewards, and AI safety applications.

深度分析

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

研究探討在受控馬可夫過程中，觀測一個對任意非恆定獎勵函數最優的確定性政策，可精確得知環境中 n 個狀態與 m 個動作所包含的 n·log m 位元資訊，並證明此上界適用於有限、折扣與平均獎勵等多種目標設定。此結果提供了對於「隱性世界模型」的資訊下界，對 AI 安全與策略可解釋性具有重要啟示。

深度分析

前沿大型語言模型在多代理市場中的資訊-財富耦合實證

本研究以Claude Opus 4.8前沿語言模型，驗證資訊理論在多代理市場的容量區間，結果顯示相對成長與宣稱資訊相等，且聯盟價值呈現條件獨立時的遞減回報。相反地，平均場模型假設的目標分散在所有測試中皆崩潰，顯示LLM族群以離散吸引子行為回應激勵。

深度分析

基於資訊理論的視覺代幣剪枝框架 TOPS 在多模態大型語言模型中的效能突破

多模態大型語言模型面臨視覺代幣過多的效能瓶頸。TOPS 從資訊理論出發，提出任務相關、資訊覆蓋與語意多樣三原則，建構最佳保留代幣集合。實驗證明在 LLaVA‑NeXT 等模型上削減77.8%代幣，仍能維持100%以上效能，顯示剪枝可降低計算成本並減少幻覺。

深度分析

以資訊通道容量解析 LIME 與 KernelSHAP 的可靠性上限

本研究探討以遮罩方式取得模型局部解釋的資訊理論上限，將說明視為訊道傳輸，推導出說明速率超過通道容量即無法精確復原的強逆定理，並示範在查詢預算有限時，最佳解碼器仍可可靠恢復稀疏說明。實驗顯示在一定查詢次數範圍內，資訊理論上可達到可靠說明，但傳統 LIME 與 KernelSHAP 的凸式回歸仍會失效。

深度分析

價值測度與資訊上限：多代理人系統的互資訊理論

研究以資訊理論的抽象手法，將價值定義為目標導向代理人在資源轉換中的速率，提出對數測度與資訊上限兩條基本定律，實驗證明感知互資訊可預測模型能力且價值與資訊呈高相關。此外，作者以實際語言模型測試，發現價值與資訊的關聯在不同任務形態下保持一致，驗證了理論的跨任務普適性。

深度分析

「量化承諾理論」：結合貝式推論與資訊理論的自主代理新框架

本文探討如何以量化方式描述承諾理論在自主代理中的應用，結合貝式機率與資訊最適化，提供代理內部隱變與外部承諾的可測指標。文章比較傳統多代理系統與承諾模型的差異，說明邊界條件如何成為意圖的可擴展定義，並預測此框架對 AI 開發者生態、分散式系統與商業合約的潛在衝擊。

速報

視覺變壓器的「綁定」資訊：提升多物件辨識的關鍵

本研究針對視覺變壓器（ViT）在多物件場景中的特徵綁定問題進行資訊理論化分析，提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰（特徵共享、遮擋、自然特徵）之資料集，評估 ViT 各層（CLS token、空間 token）的綁定表現，並比較多個預訓練模型。

深度分析

「Decan 指標」：以資訊理論測量 LLM 多樣性並與人類寫作比較

研究提出以資訊理論為基礎的「Decan」多樣性指標，透過單次前向傳遞取得每位元驚訝度，無需嵌入模型或人工標註。實驗在McDiv基準與OLMo‑2‑7B後訓練流程上均展現與人類判斷相近的表現，並偵測到RLHF導致的多樣性下降，此指標亦可用於比較不同解碼策略的多樣性貢獻。

速報

雙可預測性（Bipredictability）：為部署中強化學習建立運行時可靠性量測

部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P，一個資訊理論指標，量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制，且能更早偵測耦合異常。以資訊數位孿生IDT監測，可在低延遲下顯著提高耦合退化偵測率，勝過僅靠獎勵監控。

深度分析

查詢通道與容量界限：KernelSHAP、LIME 在遮罩式後設說明的理論極限

本文以資訊論角度建模遮罩式後設說明流程，將說明向量視為訊息、遮罩評估視為通道使用，推導每次查詢的資訊容量與強反向界限，並以蒙地卡羅互信息估計作為非漸近查詢基準，指出當說明熵超過通道資訊時任何解碼器皆無法可靠回復，實驗比較最優解碼與Lasso/OLS替代法的差異。

深度分析

設計時驗證框架：提升 AI 可信度的代數型別系統與程式超圖

機器學習常假設模型正確性需在訓練後驗證；本研究提出以代數約束於設計階段即完成數值穩定與計算正確性的驗證；透過維度型別系統、超圖分析與自適應領域模型的結合，實現多項式時間可判定的檢查；結果顯示此框架可在不增加部署與推論開銷的前提下，提升 AI 系統的可信度。

資訊理論驅動的多樣化選項學習：提升 Option-Critic 時間抽象效能

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

前沿大型語言模型在多代理市場中的資訊-財富耦合實證

基於資訊理論的視覺代幣剪枝框架 TOPS 在多模態大型語言模型中的效能突破

以資訊通道容量解析 LIME 與 KernelSHAP 的可靠性上限

價值測度與資訊上限：多代理人系統的互資訊理論

「量化承諾理論」：結合貝式推論與資訊理論的自主代理新框架

視覺變壓器的「綁定」資訊：提升多物件辨識的關鍵

「Decan 指標」：以資訊理論測量 LLM 多樣性並與人類寫作比較

雙可預測性（Bipredictability）：為部署中強化學習建立運行時可靠性量測

查詢通道與容量界限：KernelSHAP、LIME 在遮罩式後設說明的理論極限

設計時驗證框架：提升 AI 可信度的代數型別系統與程式超圖

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊