Transformer Representations - Agents Report

LLM Hallucination

LLM 幻覺偵測通常依賴外部驗證。這項新研究提出將驗證信號信號蒸餾到模型內在表示法中，讓模型在推理時能從內部激活值（Internal Activations）直接偵測幻覺，無需外部工具，且推理延遲極低，具有高度實用性。