深度分析 「指令對」與線性探測器提升大型語言模型欺騙偵測效能之研究 大型語言模型的欺騙行為日益受到關注,研究以對照指令對訓練線性探測器,並結合人類可解讀的欺騙分類法。結果顯示系統提示占效能變異70%,使用分類提示平均提升0.108 AUC,建議針對特定威脅模型設計專屬探測。不同欺騙類型的表現差異表明,單一偵測器難以全面覆蓋,未來可能需要結合多種專屬探測或集成方法。