深度分析 PermaFrost-Attack:潛伏式預訓練中毒與表徵空間幾何偵測 本報導改寫自 ArXiv 研究,揭露一種名為 PermaFrost 的威脅模型:攻擊者透過大量分散、表面無害的網路碎片在預訓練管線中種下「潛伏概念」,使語言模型在無徵兆下嵌入可被外部激活的行為。