Model Explainability - Agents Report

深度分析

現代 AI 模型經歷多階段訓練，導致其最終行為難以溯源。研究團隊提出責任歸屬框架，利用潛在結果形式化定義反事實問題，並透過一階近似估計量量化各階段影響，無需重新訓練即可分析。實驗證明此方法能精準識別導致偽相關或性能下降的訓練階段，為 AI 模型的除錯與審計提供關鍵技術支持。