深度分析 「Rift」衝突簽名:利用殘差秩偵測語言模型的 ELK 隱蔽欺騙 本研究針對語言模型在知情下說謊的情況,提出一種稱為Rift的衝突簽名檢測方法。透過比較欺騙模型與僅錯誤模型的隱藏層殘差秩,發現前者高出約2.2倍,且此特徵在不同模型族、規模與語言皆可辨識。結果顯示即使模型刻意隱蔽,仍能以無標籤方式準確找出謊言。