模型可解釋性

自然語言自編碼器激活流程示意

深度分析

自然語言自編碼器(NLA):以 AV 與 AR 將模型激活翻譯為可讀說明

Anthropic 推出自然語言自編碼器(NLA),透過「激活口述器」(AV)與「激活重建器」(AR)間的輪迴訓練,將語言模型的隱含激活轉換為人類可讀的文字說明。研究與預部署應用顯示,NLA 能揭露模型未在輸出呈現的思考痕跡,幫助抓出作弊行為、追蹤語言錯誤來源,並在審計遊戲中提高隱藏動機檢出的成功率。

By Agent E