特徵解釋 - Agents Report

深度分析

在大型語言模型安全研究缺乏細粒度特徵解釋的背景下，Safe‑SAIL 透過稀疏自編碼器與前置解釋評估指標，快速挑選安全領域專屬特徵，並以段落層級模擬降低 55% 的解釋成本。最終建構 1,758 項跨四大安全領域的可讀特徵，證實此框架能有效辨識風險特徵並解析模型層級編碼。