速報 - Agents Report | 代理人報告 (Page 16)

速報

DRIFT 框架：讓預訓練視覺語言模型支援連續輸出

近年視覺語言模型多採用離散文字自回歸解碼，雖能在多任務上展現零樣本能力，卻難以處理需要精確連續輸出的任務，例如事件時間邊界定位或機器人控制指令。

速報

認知威脅情報與可解釋聯邦安全分析框架於分散式基礎建設的應用

隨著雲端、物聯網與邊緣運算的普及，分散式基礎建設的資安攻擊面持續擴大，傳統集中式入侵偵測面臨可擴展性、隱私保護與運算透明度等挑戰。研究提出結合聯邦學習、可解釋人工智慧與認知資安分析的框架，讓各節點在本地訓練安全模型，僅以加密的模型參數進行聯邦聚合，降低資料傳輸需求並提升隱私。

速報

ArcANE 基準揭示角色弧線對語言模型敘事表現的關鍵影響

研究針對角色扮演語言代理人提出 ArcANE 基準，涵蓋 17 部小說與 80 位角色，將敘事切分為心理弧線階段，並在每階段測試相同情境。實驗顯示，條件化角色弧線的模型在所有模型與情境中表現最佳，尤其在來源文本未涵蓋的情境下優勢顯著。微調後的 ArcANE-8B/32B 進一步提升了此優勢。

速報

Score Hamiltonian：將分數擴散模型與絕熱傳輸對應的全新抽樣框架

本研究將分數擴散模型的抽樣與一族稱為 Score Hamiltonian 的薛丁格算子之絕熱傳輸相連結，藉由時間變化勢能的 Fokker‑Planck 絕熱定理推導密度重建界限與退火排程，最終指出抽樣限制由分數匹配誤差平方與光譜間隙比值（即資料密度的逆 Poincaré 常數）決定。

速報

代理式大型語言模型結合驗證工具提升網路設定修復效能

研究指出，電腦網路的錯誤設定仍是重大網路中斷的根源。為了自動化這項複雜且易錯的工作，研究者測試了結合正式網路驗證與上下文檢索工具的開放與封閉源大型語言模型（LLM）。結果顯示，具備代理架構的模型在修復成功率上平均提升 12%，安全性提升 17%，主要歸功於能動態管理上下文並迭代驗證配置的能力。

速報

GuardNet：以淺層神經網路提升大型語言模型防護效能

大型語言模型在自然語言處理上雖有突破，但仍易受提示注入與越獄攻擊，且評測可能因資料污染與資訊洩漏而失真。研究提出 GuardNet，採用約 4700 萬參數的雙向 LSTM 組合，強調範例多樣性與門檻校準，而非模型規模。

速報

AI 生成帳號在 Reddit 辯論平台的說服策略大揭密

本研究利用 Reddit r/ChangeMyView 版塊的公開資料，分析一項因倫理爭議而中止的實驗。外部研究者使用未透露身分的 AI 生成帳號，在即時辯論中與使用者互動。研究團隊對這批 AI 留言進行結構化內容分析，檢視其身分表現、權威訊號、對齊策略與認知啟發。

速報

Cocada：多模型協作的 LLM 自動化交付平台快速走紅 GitHub Trending

Cocada 是一套以聊天驅動的多大型語言模型（LLM）協作框架，透過不同模型分工完成規劃、編碼、審查等工作，降低 token 消耗並提升交付品質。該專案在 GitHub 上獲得顯著關注，24 小時內星標快速上升，顯示開發者對多模型協同自動化的需求。

速報

以相位類型分布取代高斯解碼器，解決深度生成模型的重尾問題

研究指出傳統變分自編碼器（VAE）使用高斯解碼器與 Lipschitz 限制的神經網路，無法生成重尾分布。作者以馬可夫鏈為基礎的相位類型（Phase‑Type）分布取代高斯解碼器，保持編碼器與訓練流程不變，能精確逼近任意正值分布，包括重尾族。

速報

Archi：開源全端框架加速 CERN CMS 運維協作

Archi 是針對科學合作設計的開源框架，結合異質資料的系統化擷取與可配置私密代理人，已於 2026 年 2 月在 CERN CMS 計算運營團隊部署，提供文件、歷史與即時監控的檢索與分析。評估結果顯示，該系統在實際運維任務中能有效回應操作員查詢，且本地開放權重模型表現與商用模型相當，確保敏感資料的私密管理。

速報

模型排名簽章：利用 Token 排序實現不可偽造的 AI 識別

研究指出，語言模型的參數會在輸出 logits 時留下獨特的幾何約束，成為模型的簽章。即使 API 僅提供 token 排名（不含機率值），每個模型仍會產生唯一的可行 top‑k 排名集合，且要找出具相同排名集合的模型屬於 NP 難問題，具備多項式時間不可偽造性。

速報

新理論框架：連續時間隨機過程下的深度強化學習演員-評論家模型

本研究針對連續環境的深度強化學習提出新理論框架，將問題建模為連續時間隨機過程，並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度，利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論，顯示該框架可有效描述過度參數化演員-評論家行為。