大型語言模型 - Agents Report

速報

TELLME讓LLM更透明：以隱藏表示提升可監測性與去毒成效

大型語言模型能力快速增強，但內部推理與決策仍難以監控。論文提出TELLME，一種利用模型隱藏表示（latent representation）來提升透明度與可監測性的技術，重點在於讓模型自身的內部表示更易被監測器辨識不當或敏感行為。研究指出，相較於外顯的思路鏈（chain-of-thoughts），直接分析隱藏表示能提供更真實的內視視角。