速報 - Agents Report | 代理人報告 (Page 18)

速報

Cosmos 3：全方位多模態世界模型突破，統合語言、影像與行動

Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型，採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能，於多項任務創下新紀錄，成為實體 AI 的通用骨幹，且已以開源方式釋出。

速報

DeepSpeak-Agentic：首個超過 37 小時人機對話視訊資料集

研究團隊公布 DeepSpeak-Agentic 資料集，收錄超過 37 小時的人類與具身 AI 代理人半結構化對話影片。資料集支援音訊、影像與文字層面的 AI 代理人鑑識，並用於分析人機互動特性，同時提供未來大型語言模型、語音與臉部生成技術的基準測試。

速報

首度正式定義機器心智理論：跨領域元模型與基準評估

本篇論文首次提出機器心智理論（Machine Theory of Mind）的嚴謹形式定義，結合認知心理學、神經科學與人工智慧的實證原則，作為檢視現有研究的分析框架。作者進一步構建一個通用的整體性元模型，並針對目前最先進的實驗方法進行系統性基準測試，旨在為未來突破機器理解人類心智的挑戰提供研究方向。

速報

從大型語言模型蒸餾規則提升視覺問答可解釋性

本研究提出一套利用大型語言模型（LLM）蒸餾規則的技術，針對視覺問答（VQA）任務的推理模組進行擴充。研究者先以答案集合程式（ASP）建立初始推理理論，然後以少量 VQA 範例提示 LLM 產生新規則，並透過 ASP 求解器回饋修正錯誤。

速報

FLARE 框架：結合混合注意力與擴散式生成的高效大型語言模型轉換

自回歸大型語言模型在實務應用上取得成功，但逐字解碼仍是低延遲部署的瓶頸。近來的效能優化研究分為兩條路徑：透過混合注意力架構降低單次模型呼叫成本，以及利用擴散式語言模型（dLLM）以平行去噪方式減少序列步驟。FLARE 提出一套系統化的轉換框架，將混合注意力 LLM 轉換為同時支援自回歸驗證解碼與擴散平行去噪的模型。

速報

SECUREVENT：結合 AI 與 CEP 的分散式事件系統安全監控架構

分散式事件系統在即時資料傳輸、物聯網與雲端微服務中扮演關鍵角色，但其鬆耦合與非同步傳遞也擴大了攻擊面。研究提出 SECUREVENT，結合驗證傳輸、主題授權、簽名事件等傳統防護與線上異常偵測、圖形行為特徵、複雜事件規則、聯邦學習與對抗式機器學習治理的混合式安全監控架構。

速報

新世代代理人作業系統（AOS）：為 AI 代理打造可控安全基礎架構

傳統作業系統以確定性程式設計為前提，無法完全支援長期目標導向、具機率推理與工具動態調用的 AI 代理。研究提出「代理人作業系統（Agent Operating System，AOS）」，將代理控制平面整合至現有作業系統，或逐步接管特定功能。AOS 的核心職責包括排程、上下文與記憶管理、工具與能力註冊、政策與信任執行、可觀測性與稽核。

速報

新型探索式 NLHF 演算法：以 Nash 均衡優化大型語言模型對齊

研究聚焦於大型語言模型的偏好對齊問題，指出傳統以單一獎勵最大化的方式難以處理循環或非傳遞性的人類偏好。作者提出一種結合 SFT 正則化與對抗式政策探索的顯式探索式 NLHF 演算法，保留迭代式直接政策優化的架構，同時在理論上達到 O(√T) 的遺憾界限，若使用最小最大值 oracle 可進一步降至 O(log T)。

速報

多語言跨語系文本摘要新基準 MEA 推出 24 種目標語言測試

隨著使用者跨語言閱讀需求增加，多目標跨語系文本摘要（MTXLS）成為關注焦點，但相關研究仍相對薄弱。研究團隊推出了 MEA 基準，涵蓋 24 種目標語言，並比較端對端與流水線式方法在不同大型語言模型（LLM）上的表現，結果顯示 MTXLS 的品質仍遠低於單語英文摘要。

速報

全新 ASE-26 課程：培育代理式軟體工程師的大學課程

隨著軟體工程師工作越來越偏向指揮 AI 代理而非手寫程式碼，產業已顯現出顯著的自動化趨勢。Anthropic 的經濟指數顯示，Claude Code 互動中有 79% 為自動化，相關研究亦指出程式設計師工作中約有 75% 的活動已被 AI 涵蓋。

速報

強化隨機流映射（SSFMs）突破擴散模型抽樣瓶頸

研究者提出「強化隨機流映射」（Strong Stochastic Flow Maps, SSFMs）框架，直接學習加性噪聲隨機微分方程（SDE）的強解映射，將確定性流映射概念延伸至隨機情境。透過多項式近似布朗運動並證明路徑收斂，SSFMs 可在無需模擬的情況下訓練擴散模型的解映射。

速報

SS‑ZKR：跨域零知識路由協定提升 AI 代理安全性

多代理系統的溝通已受 Agent‑to‑Agent (A2A) 與 Model Context Protocol (MCP) 標準及去中心化身分驗證框架支援，但仍缺乏在組織信任邊界內，能在不解密負載的前提下進行語意路由的機制。