速報語言模型 token 排名模型簽章 AI 安全

模型排名簽章：利用 Token 排序實現不可偽造的 AI 識別

研究指出，語言模型的參數會在輸出 logits 時留下獨特的幾何約束，成為模型的簽章。即使 API 僅提供 token 排名（不含機率值），每個模型仍會產生唯一的可行 top‑k 排名集合，且要找出具相同排名集合的模型屬於 NP 難問題，具備多項式時間不可偽造性。

04 6月 2026 — 2 min read

語言模型的參數會在 logits 輸出上留下獨特的幾何限制，形成可辨識的模型簽章。研究者進一步探討只回傳 token 排名（即依機率排序但不提供實際機率值）的 API，發現每個模型都有唯一的可行 top‑k 排名集合，只要 k 足夠大即可呈現此簽章。

排名簽章的不可偽造性

與 logits 不同，排名簽章是已知的首個在多項式時間內不可偽造的簽章。要找出另一個模型擁有相同的排名集合屬於 NP‑hard 問題，意味著在實務上難以仿冒。

即使僅提供排名，攻擊者仍能大致推估模型的最後一層參數，類似於直接取得 logits 的情形。但這種近似太粗糙，無法重建完整的排名簽章。若 API 限制返回的 top‑k 數量足夠小，就能同時保留簽章功能與阻止參數竊取。

由於呈現簽章所需的 top‑k 通常比防止竊取所需的 k 小，服務提供者可以在不泄露模型參數的前提下，向使用者展示不可偽造的模型簽章，提升 AI 服務的可信度與安全性。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

文本屬性圖（TAG）學習在學術網路、社群平台、電商系統等領域應用廣泛，但真實世界的 TAG 常因文本稀疏或雜訊、結構缺失或干擾、標籤不均或錯誤而品質低落。現有研究多聚焦單一劣化類型，缺乏統一基準。

Vector-Bench 是一個針對 SVG 指令式編輯的嚴謹基準測試，包含 40 個修復任務，每個任務配對一個損壞的 SVG 程式碼與作者撰寫的視覺指令、隱藏的目標程式碼、平均 5.05 個註釋修復和 60.55 個保護物件。指令僅描述可見缺陷，不暴露元素識別碼、座標、顏色碼或路徑資料。

大型語言模型（LLM）的流暢生成常被批評缺乏真正的語法結構。本文提出一個神經符號框架，利用組合範疇語法（CCG）對 LLM 的輸出進行後設的「提升」（lifting），將自然語言轉換為具型別的組合推導式。

大型語言模型體積龐大，難以用於機器人即時決策。Athena-Brain-8B 透過通用微調、強化學習、具身專家訓練與模型合併四階段後訓練，在 80 億參數內同時保留通用智慧與具身技能。實驗顯示，它在機器人導航任務上超越 GPT-5.5 等大模型，證明緊湊模型可勝任機器人大腦。