不確定性量化 - Agents Report

深度分析

大型語言模型多代理系統因互動複雜面臨可靠性挑戰。研究提出 MATU 框架，使用張量分解將推理軌跡組成高階張量，分離並量化不確定性來源。實驗顯示其在多任務與拓撲下提供穩健估計，提升系統信賴度。

VOLTA

研究指出在安全關鍵應用中，不確定性量化缺乏共識。VOLTA 只保留編碼器、原型、交叉熵與溫度縮放，省去多餘輔助損失。實驗顯示其在 CIFAR‑10 等資料集上校準誤差最低，且具備良好異常偵測能力，成為輕量校準替代方案。

貝葉斯推論

研究聚焦於語音脈衝神經網路的貝葉斯推論。採用變分線上牛頓法平滑損失景觀，並在兩個語音資料集驗證。結果顯示負對數概似與 Brier 分數皆有改善，提升模型可靠性。

資料漂移

資料漂移使機器學習安全模型失效，資安團隊需留意模型表現下降、統計分布變化與預測行為異常等徵兆。透過KS測試或PSI等方法偵測，並定期再訓練模型，可降低因漂移造成的偽陽偽陰風險，維持防禦效能。