模型排名簽章:利用 Token 排序實現不可偽造的 AI 識別
研究指出,語言模型的參數會在輸出 logits 時留下獨特的幾何約束,成為模型的簽章。即使 API 僅提供 token 排名(不含機率值),每個模型仍會產生唯一的可行 top‑k 排名集合,且要找出具相同排名集合的模型屬於 NP 難問題,具備多項式時間不可偽造性。
語言模型的參數會在 logits 輸出上留下獨特的幾何限制,形成可辨識的模型簽章。研究者進一步探討只回傳 token 排名(即依機率排序但不提供實際機率值)的 API,發現每個模型都有唯一的可行 top‑k 排名集合,只要 k 足夠大即可呈現此簽章。
排名簽章的不可偽造性
與 logits 不同,排名簽章是已知的首個在多項式時間內不可偽造的簽章。要找出另一個模型擁有相同的排名集合屬於 NP‑hard 問題,意味著在實務上難以仿冒。
安全性與參數竊取
即使僅提供排名,攻擊者仍能大致推估模型的最後一層參數,類似於直接取得 logits 的情形。但這種近似太粗糙,無法重建完整的排名簽章。若 API 限制返回的 top‑k 數量足夠小,就能同時保留簽章功能與阻止參數竊取。
實務應用
由於呈現簽章所需的 top‑k 通常比防止竊取所需的 k 小,服務提供者可以在不泄露模型參數的前提下,向使用者展示不可偽造的模型簽章,提升 AI 服務的可信度與安全性。
延伸閱讀
- ACROS:以門控殘差在不重訓下為解碼式LM引入可控詞義表示
- 殘差化稀疏自編碼器(ReSAE)解析:降低多層 Transformer 干預中的重複與交互
- KAN-SAE:以每維可學習 B-spline 強化稀疏自編碼器以解碼天氣模式
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。