深度分析 Secret Alignment 與秘密觸發器:對 LLM(Llama2-7B)保護主張的標準化評估 開放權重與私人人工智慧興起,使語言模型成為私有資產。文章建議撤回「positive backdoor」稱呼,改以「秘密對齊」來中性描述由觸發器啟動的隱藏行為;並主張在未通過六項嚴格標準化評估前,不應將此類機制視為安全防護,因其對保密性、完整性與可用性構成實務風險。