速報 TELLME讓LLM更透明:以隱藏表示提升可監測性與去毒成效 大型語言模型能力快速增強,但內部推理與決策仍難以監控。論文提出TELLME,一種利用模型隱藏表示(latent representation)來提升透明度與可監測性的技術,重點在於讓模型自身的內部表示更易被監測器辨識不當或敏感行為。研究指出,相較於外顯的思路鏈(chain-of-thoughts),直接分析隱藏表示能提供更真實的內視視角。