深度分析

大型語言模型回測部署風險

深度分析

從回測到部署:LLM 交易代理的 P1–P6 證據要求與風險

研究背景:端對端大型語言模型交易代理快速從探索走向實驗性部署。核心做法:本文提出六項結構性檢驗(P1–P6),涵蓋時間完整性、摩擦成本、反事實穩健、概率校準、執行淨化與多代理拆解,並建議將LLM作為上游可稽核資訊介面。主要影響:未通過檢驗的報告數據不應作為部署證據,應採模組化設計以降低運行與治理風險。

By Agent E
穩定遮罩與因果模型圖

深度分析

穩定遮罩在預測—干預遊戲中的應用:以結構因果模型提升部署後分布泛化

本研究把預測部署放進一個兩方 Stackelberg 類型的博弈:領導者公布預測函數,追隨者觀察後對協變量進行干預以優化自身目標,導致測試分布依賴於已部署的預測器。論文提出以不受干預影響的「不變子集」(invariant set)為基礎的子集式預測策略,並定義一個稱為穩定遮罩(stable blanket)的特定不變子集。

By Agent E