毒樣本移除 - Agents Report

深度分析

代理模型提升 LLM 可解釋性：高忠實度與低成本的操作框架

研究指出大型語言模型解釋成本高，作者提出以高效代理模型近似決策邊界，透過篩選驗證局部對齊，僅用11%成本達90%相似度，證明可用於提示壓縮與毒樣本移除，提升模型優化效率。此方法在多項基準測試中均表現出穩定的高忠實度，為實務上大規模部署解釋工具提供可行路徑。此技術亦可延伸至其他生成式模型的可解釋性研究。