Agent E - Agents Report | 代理人報告 (Page 84)

大佬動態

Cognition 在最新 D 輪募資中取得約 10 億美元資金、估值達 $26B，同時公司對外揭示營收成長預期，年底 ARR 預估超過 10 億美元等指標性數字。Cognition 的核心布局是以代理人式與自動化流程，讓人工智慧在軟體開發中承擔更多從編碼到測試、部署的工作。

深度分析

視覺語言模型面臨高解析影像造成的記憶與延遲瓶頸。CIVIC 提出全程路徑一致的緊湊序列設計，透過錨點聚合、KV 壓縮注意力與文本對齊的 KL 蒸餾，避免重複稠密還原與路由開銷。實驗證明能顯著縮減KV-cache與整體推論延遲，同時維持多模態效能表現。

深度分析

本研究以實際空間生物量測為起點建立24項長程評估任務探討AI代理人對科學結論的重建能力任務涵蓋空間轉錄組織形態與血緣追蹤等多模態資料採用可驗證二元評分並結合軌跡式阻塞點診斷在15組模型與介面共1080條路徑中結果顯示通過率低但出現零星成功揭示程序性量測與跨模態整合的侷限

深度分析

近年多角色音視訊生成在唇語同步與視聽對齊已有進展。本研究提出MTAVG-Bench2.0，聚焦短劇場景，建立橫跨表演、氛圍與攝影的高階失敗分類，構建逾一萬條問答評估實例以診斷電影級表現缺陷。實驗發現頂級商用通用模型整體表現領先，卻仍難處理複雜角色表演與跨鏡頭敘事問題。

深度分析

本研究實證稽核Anchored Decoding的k-NAF預算會計，採固定分層工作負載與自適應提示搜尋。以經驗貝葉斯上界做代理指標，量測序列級KL消耗並檢驗表面重疊。固定負載下平均支出顯著低於序列預算，自適應搜尋提高代理比但未見明顯預算耗盡。

深度分析

研究提出STAB框架，僅憑自然語言題目規格即生成揭露演算法瓶頸的測試資料，先以規則與CP‑SAT求得最大合法尺寸，再從13種對抗情境匹配構造原則，由大型語言模型產生Python測資生成器，於CodeContests提升測資暴露率至70%以上，顯示規格導向測試的效能與可擴展性。

速報

學術論文常以圖示說明複雜方法。提出DiagramRAG透過檢索增強把草圖與相容參考結合以補全圖示。技術用知識圖譜與嵌入對齊草圖與圖示。實驗在DiagramBank與FigureBench分別達到F1分數0.848與0.802，並改善生成品質與推論延遲。

深度分析

AIBuildAI-2提出一種以分層且可持續更新的外部知識系統來強化自動化AI模型構建代理。系統以約30個高階類別（L1）配對約1,000份實務文件（L2），採動態載入相關知識以節省上下文空間，並在每次執行後將結構化經驗回寫知識庫以自我成長。

深度分析

TCP‑MCP 提出將代理提示（prompts）與通訊拓撲視為聯合基因體，同時演化以設計多代理系統。研究以初始化景觀探針校準早期搜尋，並以帕累托前緣診斷在任務效能、Token 成本與結構複雜度三目標間自適應探索。

生成式回應模型 (GRM)

在線廣告自動出價需在預算與效率間取捨。本文提出生成式回應模型（GRM），以歷史條件預測整段時域的費用、價值與流量回應曲線，並用輕量解析控制器透過一維根求解滿足預算與CPA等約束。實驗指出GRM在AuctionNet上改善了約7.8%的總分並在分布轉移下更為穩定。

深度分析

研究指出非結構化文字已成生產環境增長最快的資料類型，提出在瀏覽器與代理人沙箱直接查詢 Parquet/Iceberg 的 JavaScript 引擎與庫，透過逐欄延遲解碼與非同步 UDF，將昂貴模型推理延後執行，顯著降低冷啟動與推理成本，並改善查詢互動延遲與模型計費。

深度分析

隨著大型語言模型在具身代理中的應用普遍，記憶仍多為外部檢索。研究提出PEAM框架，將成功與修正的操作軌跡內化為參數化適配器，並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘，且以自觸發機制在失敗統計達標時自動內化，免除手動門檻，提升了代理的實時反應速度。