深度分析 代理模型提升 LLM 可解釋性:高忠實度與低成本的操作框架 研究指出大型語言模型解釋成本高,作者提出以高效代理模型近似決策邊界,透過篩選驗證局部對齊,僅用11%成本達90%相似度,證明可用於提示壓縮與毒樣本移除,提升模型優化效率。此方法在多項基準測試中均表現出穩定的高忠實度,為實務上大規模部署解釋工具提供可行路徑。此技術亦可延伸至其他生成式模型的可解釋性研究。