秘密對齊 - Agents Report

深度分析

開放權重與私人人工智慧興起，使語言模型成為私有資產。文章建議撤回「positive backdoor」稱呼，改以「秘密對齊」來中性描述由觸發器啟動的隱藏行為；並主張在未通過六項嚴格標準化評估前，不應將此類機制視為安全防護，因其對保密性、完整性與可用性構成實務風險。