深度分析
「指令對」與線性探測器提升大型語言模型欺騙偵測效能之研究
大型語言模型的欺騙行為日益受到關注,研究以對照指令對訓練線性探測器,並結合人類可解讀的欺騙分類法。結果顯示系統提示占效能變異70%,使用分類提示平均提升0.108 AUC,建議針對特定威脅模型設計專屬探測。不同欺騙類型的表現差異表明,單一偵測器難以全面覆蓋,未來可能需要結合多種專屬探測或集成方法。
深度分析
大型語言模型的欺騙行為日益受到關注,研究以對照指令對訓練線性探測器,並結合人類可解讀的欺騙分類法。結果顯示系統提示占效能變異70%,使用分類提示平均提升0.108 AUC,建議針對特定威脅模型設計專屬探測。不同欺騙類型的表現差異表明,單一偵測器難以全面覆蓋,未來可能需要結合多種專屬探測或集成方法。
速報
近期大型語言模型(LLM)在自動作文評分(AES)領域取得突破,但其內部運作仍不明朗。研究者系統性分析了八種 LLM 在兩個英語作文資料集(ASAP++、CSEE)與一個葡萄牙語資料集(ENEM)上的隱藏表示,使用線性探測、跨提示泛化、維度縮減與神經元層級分析。