速報 - Agents Report | 代理人報告 (Page 2)

速報

生成式 AI 讓軟體開發從稀缺走向大量，治理轉換模型首度公開

本研究以一位資深軟體工程師在 12 週內使用前沿生成式 AI 編碼代理，打造文件可及性修復系統為案例，蒐集 88 份即時筆記、420 萬行程式碼與逾百萬行測試與文件。透過實驗資料，提出「治理轉換」的中階理論模型，說明在高速度 AI 代理開發環境下，如何將頻發的結構性失敗轉化為持續的治理機制，確保開發過程仍具可檢視、可校正與可維護性。

速報

MuSix：具身代理人多尺度世界模型與自適應框架

具身代理人在真實環境中需要隨著情境變化進行多尺度推理與知識調整。研究指出，傳統的專家混合模型在路由與更新上缺乏尺度概念，難以針對不同層級的知識做適切調整。

速報

Seed2.0：突破長尾知識與複雜指令的全新大型語言模型

研究團隊推出了 Seed2.0 系列模型，聚焦真實使用者需求，打造以長尾知識與複雜指令為核心的評估基準。透過前瞻性的測試框架，模型在推理、視覺理解與搜尋等多項能力上達到業界領先水平，並在多個實務案例中展現處理長程任務的可靠性。Seed2.0 旨在為億級使用者提供更高價值的 AI 服務，標誌著大型語言模型向真實世界應用的重大跨越。

速報

有限理性延伸：Bounded Morality 框架解析道德計算需求

研究將道德認知視為有限資源下的計算問題，提出以道德廣度與深度兩維度衡量的 Bounded Morality 框架。此框架說明資源限制迫使道德策略在廣度與深度間取捨，並將傳統倫理理論視為不同需求情境的局部最佳解。結果顯示，人工系統的道德對齊取決於推理容量的配置，而非純粹模仿人類判斷。

速報

PACE：優化語言模型迭代平均的輕量控制器

許多大型語言模型在訓練結束後會使用指數移動平均（EMA）作為最終權重，而非最後一次迭代的參數。針對這一慣例，研究者將迭代平均的最佳化問題建模為連續時間隨機二次控制問題，推導出一套在干預成本限制下最小化平均誤差的控制策略。

速報

Agentic 瀏覽器安全挑戰：SOP 失效與 SOPGuard 防護方案

Agentic 瀏覽器將自主 AI 代理嵌入瀏覽器，可能成為跨來源資料流的自動管道，威脅同源政策。研究者建置 SOPBench 評估多款瀏覽器的 SOP 违规情形，發現違規頻繁。為解決此問題，提出 SOPGuard 防護機制，於 BrowserOS 中實作後能有效維持 SOP，且僅產生輕微的執行開銷。

速報

人類效能提升研究面臨的挑戰：AI 系統快速演化與驗證有效性之衝突

隨著人工智慧在各領域的應用日益深化，透過隨機對照試驗（RCT）測量 AI 對人類表現的提升效果（稱為 human uplift）成為決策者的重要依據。然而，前沿 AI 系統的快速迭代、基線變化、使用者熟練度差異以及真實環境的開放性，皆對研究的內部、外部與構念效度構成嚴重挑戰。

速報

IPO Finance Agent：突破長文件檢索，提升 IPO 盡職調查效能

Finance Agent v2 只支援定期報告，無法處理長篇 IPO 招股說明書。研究者開發 IPO Finance Agent，加入上下文檢索與 IPO 專屬題庫，提升長文件問答能力。測試顯示 Zhipu GLM-5.2 正確率 79.8%，成本效益佳的 Xiaomi MiMo-2.5 Pro 亦表現優異。

速報

Label Imitation Game：利用 Turing 測試網路提升偽標籤精準度

偽標籤雖能大幅擴增資料規模，但易受幻覺影響。研究提出 Label Imitation Game，利用 Turing Test Network 以全局情境審核偽標籤，提升三大視覺語言模型的標籤準確度。實驗顯示，僅訓練於分類資料的 TTN 亦能有效修剪偵測偽標籤，將最差類別 F1 提升 28%，微調後更達 44%。此方法亦促成零召回類別的恢復。

速報

預測誤差門控與元認知：新型記憶與視覺語言模型的雙重突破

本研究探討利用小型預測器在凍結編碼器潛在空間產生的預測誤差訊號，作為可塑性門檻與元認知基礎。第一套系統結合非參數式情節記憶與離線重播，於凍結的 DINOv2 或 I‑JEPA 骨幹上持續學習 1000 個 ImageNet 類別，顯示出顯著的記憶保持與少樣本表現。

速報

量化開放式語言模型本地部署：BlendSQL 效能突破與成本削減

在大型資料庫應用中，使用專屬 API 的語言模型因以 token 計費，成本高達上萬元，阻礙研究與部署。研究團隊證明，僅憑 16GB VRAM 的量化開放權重模型即可在精準度、延遲與成本上超越封閉式模型，並在 BlendSQL v0.1.0 框架內實現 390 倍成本與 3.8 倍延遲的優化。

速報

Xiaomi‑GUI‑0：原生多模態 GUI 代理人實機驗證突破執行穩定性

現有 GUI 代理人多在離線或模擬環境訓練，與真實手機使用差距大。研究推出 Xiaomi‑GUI‑0，採原生實機閉環混合架構，結合高頻任務、長尾意圖與錯誤驅動資料飛輪，提升真實環境執行穩定性。測試顯示在 RealMobile 上成功率達 72.0%，顯著改善異常狀態辨識。