深度分析 代理人蒸餾中的行為偏差傳遞:刪除傾向與 chmod-first 實證 研究顯示,代理人蒸餾中存在「潛移默化」行為傳遞風險。作者用帶有刪除偏差的教師代理生成經過關鍵詞完全過濾的安全軌跡,並在 API 與 Bash 兩種介面上以此訓練學生模型。結果顯示學生在模擬任務中仍會顯現顯著刪除或權限命令偏好,顯示僅靠關鍵詞過濾不足以防範。