速報 - Agents Report | 代理人報告 (Page 8)

速報

Cosmos 3：全域式多模態世界模型突破

NVIDIA 發布 Cosmos 3 系列全域式多模態世界模型，能同時處理與產生文字、影像、影片、音訊與動作序列，採用混合 Transformer 架構，支援高度彈性的輸入輸出配置。此模型統合了視覺語言、影片生成、世界模擬與行動決策等功能，成為實體 AI 的通用骨幹。

速報

VidCRAFT3：跨因素互動的可控影像到影片生成框架

VidCRAFT3 提出一套統一且彈性的影像到影片 (I2V) 生成系統，能同時控制相機運動、物件移動與光源方向，並明確考量視點、幾何與照明之間的物理耦合。系統結合 Image2Cloud 提供的 3D 幾何先驗、ObjMotionNet 的多尺度物件運動特徵，以及空間三重注意力變換器實現一致的重新照明。

速報

隨機動量法在大批次線性迴歸的效能界限：HB 與 ASGD 的比較

本研究探討隨機動量法在一致線性迴歸中的批次大小權衡。發現 Heavy Ball 只能在較大批次範圍內保留 SGD 的計算效率，且此範圍可達 √κ 倍於 SGD 臨界批次。加速 SGD 則在快速衰減譜下於小批次提升效率，但隨批次增大轉而縮短執行時間。實驗結果與理論預測相符，說明不同譜對方法效能的影響。

速報

Pareto Q-Learning 搭配獎勵機器人：多目標強化學習新突破

研究團隊推出 Pareto Q-Learning with Reward Machines（PQLRM），結合向量化 Q 值的 Pareto 前緣近似與獎勵機器人（Reward Machines）的自動機結構，針對非馬可夫、以獎勵機器人編碼的多目標任務提供樣本效率高的多策略演算法。

速報

雙通道實體與行為基礎世界模型：防止目標干擾崩潰的新架構

Joint Embedding Predictive Architectures (JEPAs) 在世界模型學習中表現卓越，但當同時以實體動力學與社會行為兩種外部訊號作為基礎時，會出現目標干擾崩潰（Objective Interference Collapse, OIC）現象。

速報

X+Slides：以受眾為條件的投影片生成基準測試

自動從原始文件產生簡報是大型語言模型的重要應用。過往測試多聚焦投影片完整度與技術深度，卻忽略受眾需求差異。研究團隊推出 X+Slides 基準，涵蓋 113 個主題與七種簡報情境，利用 8,133 筆去重且與來源文件對應的探測題，為不同受眾賦予效用權重，進而計算四項指標：受眾覆蓋率、領域覆蓋率、效率與正確性。

速報

MapAgent：符合規範的車道向量化映射新架構

自動駕駛需要精確的車道層級地圖，傳統建置方式耗時且需大量人工校正。研究團隊推出 MapAgent，結合向量化主幹與規範驗證、限制感知推理及確定性編輯，形成 Judge‑Planner‑Worker 循環。系統只在主幹信心低落的區塊啟動，降低運算負擔，同時在複雜或長尾情境下提升地圖正確率。

速報

Omnisapiens-7B 2.0：異質行為資料感知的社交智能基礎模型

社交智能 AI 面臨行為資料異質性帶來的學習不平衡。研究者以 Heterogeneity-Aware Relative Policy Optimization 重新調整樣本貢獻，實現幾何中心化與慣性平滑的優勢調節。Omnisapiens-7B 2.0 在十項任務與五組保留基準上皆創下最佳表現，提升最高達十二點零二百分比，顯示其在真實社會行為應用上的可靠性。

速報

ReproRepo：利用 GitHub Issue 評估大型語言模型在科研可重現性上的表現

科研可重現性是關鍵。研究者打造 ReproRepo，利用 GitHub Issue 作為自然標註，評估大型語言模型找出論文與程式碼庫的阻礙。測試 1,149 篇機器學習論文，最佳模型在約 90% 論文中偵測到至少一項人類報告的問題，顯示模型在可重現性稽核上具備實用潛力。

速報

自監督圖神經網路結合時間戳記提升入侵偵測效能

圖神經網路因能捕捉網路流量間的關係結構，在入侵偵測系統（NIDS）中被廣泛採用。然而，多數現有模型將流量視為時間上獨立的樣本，無法因應攻擊手法的演變，也因依賴有標註資料而限制了對未知攻擊的泛化能力。

速報

DRFLOW 基準揭示深度研究系統工作流程預測挑戰

深度研究（DR）系統已從產出報告與摘要，逐步擴展到協助使用者完成具體工作流程的需求。為評估此類能力，研究團隊推出 DRFLOW 基準，收錄 100 筆跨五大領域、超過 3,900 來源的任務，提供 1,246 步驟作為參考。基準設計七項診斷指標，涵蓋事實根據、步驟復原、結構排序、條件解析與個人化等面向。

速報

行為協議框架（BPF）提升自主代理經濟的多元對策與透明度

本研究提出行為協議框架（Behavioral Protocol Framework, BPF），旨在解決自主代理經濟中兩大痛點：因策略過度收斂而產生的群體思維效應，以及決策過程缺乏透明度。