速報 Consilium Protocol AI 多模型認知人格樣本外驗證

Consilium Protocol：以認知人格驅動多模型 AI 辯論的新架構

研究團隊提出 Consilium Protocol，一套源自拜占庭容錯的架構，讓多模型 AI 在討論時將模型間的分歧視為認知訊號而非錯誤。透過為語言模型分配工程化的認知人格，並引入量化金融的樣本內/樣本外驗證機制，能區分訓練資料的共識與實證結論。

02 6月 2026 — 2 min read

Consilium Protocol 概述

研究團隊推出 Consilium Protocol，這是一套從拜占庭容錯衍生的架構，專為多模型 AI 辯論設計，將模型間的分歧視為認知訊號而非錯誤。

協議為語言模型指派工程化的認知人格，將模型本身與推理方式分離；同時引入樣本內/樣本外驗證框架，借鑒量化金融的做法，區分訓練資料的共識與實證結論。

在 1,478 場辯論、涵蓋 32 個議題、10 個領域的測試中，觀察到以下四點：

隨機模型×人格配置的重複性實驗，標準差平均 ±2.2%。完整測試的總成本為 217 美元，協議規範已以 MIT 授權釋出，供外部驗證使用。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

AI 科學文獻合成代理系統的引用驗證機制存在重大不一致性。研究發現同一輸出在不同驗證器下無支援引用率從約 3% 到 18% 不等，且驗證器間對須標記案例共識極低。團隊提出以人類黃金標準為錨點的評估協議與基於分割共形預測的防護機制，能對未標記的無支援引用提供有限樣本保證。

OpenAI 的 GPT-5.5 Pro 模型自主生成七個反例，證明了實數域上的 Erdős–Szemerédi 和積猜想不成立。該研究使用三階段提示流程，在八次試驗中七次成功，平均耗費 132.4k 推理 token。證明方法多樣，部分避開單位構造，採用 Lp 型區域，減少數論需求。

本研究提出 CMI-Mem，一種以強化學習為基礎的輕量級記憶管理器模型。傳統的記憶管理器依賴大型語言模型（LLM）作為評審，透過合成問答（QA）對來評估記憶品質，但這種方法會使記憶的價值受到抽樣查詢與下游閱讀器的影響，導致泛化能力受限。

後端程式碼生成常因缺乏執行驗證而產生語義錯誤。ExecuGraph 提出基於 LangGraph 的多代理人架構，以執行結果為唯一驗收標準。在 HumanEval 上領先單次生成 3.1 個百分點，但內部 30 題庫的統計差異未達顯著，顯示效益與模型規模相關。