速報會議摘要評估大型語言模型隱私監測人工智慧評測

人工智慧會議摘要評估系統：可重複、隱私保護與保留率差異揭示

在實務上，團隊常在尚未完成回歸或模型選擇前推出會議摘要功能。本研究提出一套面向實務的人工智慧會議摘要評估系統，結構化地建構標註、以固定候選摘要供評審比較，並採主張依據的評分方法；系統同時提供隱私界定的線上監測與提名介面，以輸出隱私安全的聚合指標。

15 5月 2026 — 2 min read

要點

研究提出一套可重複使用的人工智慧會議摘要評估系統，結合結構化標註、固定候選摘要生成與主張依據評分，並附隱私界定的線上監測與提名介面。

系統將線上證據視為監測來源而非基準資料，以隱私安全的聚合匯出顯示監測活動、困難區段偵測與方向性變化，避免揭露使用者內容或敏感資料。

離線基準在city_council、private_data與whitehouse_press_briefings三領域共114場會議上執行，產出340個會議-模型配對與680次評審執行，測試模型包含gpt-4.1-mini、gpt-5-mini與gpt-5.1。

在固定評測流程下，整體準確度差異經Holm校正後未達顯著（校正後p值範圍0.053–0.448），但gpt-4.1-mini平均準確度最高（0.583）。顯著差異主要出現在保留面向，其中gpt-5.1在完整性與覆蓋率上領先，分別達到0.886與0.942。

型別切片分析指出whitehouse_press_briefings為一個準確度較難的場域。後續針對gpt-4.1、gpt-5-mini與gpt-5.4的重跑重用相同堆疊、評審與度量，保持結果可比較性。

總結來說，這套評估堆疊強調可重複性、固定候選與主張導向評分，並在保護隱私前提下提供實務可用的監測信號，能在模型尚未穩定時為部署提供量化參考。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

文本屬性圖（TAG）學習在學術網路、社群平台、電商系統等領域應用廣泛，但真實世界的 TAG 常因文本稀疏或雜訊、結構缺失或干擾、標籤不均或錯誤而品質低落。現有研究多聚焦單一劣化類型，缺乏統一基準。

Vector-Bench 是一個針對 SVG 指令式編輯的嚴謹基準測試，包含 40 個修復任務，每個任務配對一個損壞的 SVG 程式碼與作者撰寫的視覺指令、隱藏的目標程式碼、平均 5.05 個註釋修復和 60.55 個保護物件。指令僅描述可見缺陷，不暴露元素識別碼、座標、顏色碼或路徑資料。

大型語言模型（LLM）的流暢生成常被批評缺乏真正的語法結構。本文提出一個神經符號框架，利用組合範疇語法（CCG）對 LLM 的輸出進行後設的「提升」（lifting），將自然語言轉換為具型別的組合推導式。

大型語言模型體積龐大，難以用於機器人即時決策。Athena-Brain-8B 透過通用微調、強化學習、具身專家訓練與模型合併四階段後訓練，在 80 億參數內同時保留通用智慧與具身技能。實驗顯示，它在機器人導航任務上超越 GPT-5.5 等大模型，證明緊湊模型可勝任機器人大腦。