Agents Report | 代理人報告 (Page 78)

深度分析

MobileGym：以結構化狀態與高平行性實現可驗證的行動 GUI 模擬平台

MobileGym是一個在瀏覽器運行的輕量行動模擬環境，以結構化JSON表示完整環境狀態，聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉，並以確定性判定取代易錯的視覺大模型評分，支援低資源下的大規模並行訓練。

深度分析

Claw-Anything：長時程、多服務、多裝置的個人助理評測基準

Claw-Anything 提出一個面向始終在線個人助理的新評測框架，擴大代理能觀測與操作的數位範圍。此基準結合三大維度：長期活動紀錄、互相依存的後端服務，以及跨裝置的 GUI 與 CLI 互動；並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現，即便是最先進的閉源模型，在此環境下成功率遠低於既有基準；

深度分析

以 RHAE 衡量速度—深度權衡：AERA 在 ARC-AGI-3 的實驗與理論

ARC-AGI-3要求代理在陌生回合式環境中靠互動發現規則與勝條。本文提出AERA三階段架構：EXPLORE/VERIFY/PLAN，以信念熵為探索門檻並用預算平衡速度與深度。實驗指出公開25場可被非智慧策略通過，而私有55場競賽提交達到RHAE=0.30，凸顯基準集的判別限制。

L2IR

L2IR：以LLM輔助GNN揭露圖結構詐欺的潛在意圖

在關係被偽裝的圖形詐欺場景下，傳統圖神經網路因鄰居聚合會稀釋詐欺訊號而面臨挑戰。L2IR提出以大型語言模型（LLM）逐一推理使用者行為與連結背後的意圖，產生意圖感知的節點與邊表示，並結合自適應自訓練於標註稀少情況下強化偵測。實驗顯示，在兩個真實世界資料集上，L2IR能作為多種GNN偵測器的外掛提升效能，AUPRC有可觀增益。

深度分析

跨城與多任務評估的 CityRep：以區塊式空間切分衡量表示泛化

城市表徵學習試圖把異質的城市觀測資料壓縮為可重用的空間嵌入，以支援不同下游任務與未來城市基礎模型。CityRep 提出一套統一可延伸的評測基準，透過空間單元對齊模組、區塊式空間切分，以及跨八座城市、八項任務的多樣任務組合，來衡量表示的跨情境泛化能力。實驗顯示：隨機切分會高估模型表現；

深度分析

面向 EFO_k 的 NS3：結合神經評分與預算化符號搜尋的可擴展聯合排序

知識圖譜經常不完整，對多個自由變數的存在性一階查詢（EFO_k）要求對元組進行聯合排序，卻因笛卡兒候選空間指數成長而難以擴展。

深度分析

AAI（Actuarial Action Interface）與 Authority Frontier：準備金驅動的代理人授權與風險管理

自動化代理能直接造成資料庫更動、退款與付款等副作用。本研究提出精算行為介面（AAI），以每次副作用為單位做事前定價與準備金門檻，並用AuthorityFrontier量化不同準備金下釋放的代理權限。跨四個實驗場域顯示低準備金普遍拒絕，中等準備金逐步釋放，各域呈現不同的精算幾何。

Jaeger

Jaeger + ClickHouse 在一千萬個 span 上達成 8.6× 壓縮：觀測資料儲存與查詢權衡

Jaeger 團隊以 ClickHouse 作為後端儲存，針對一千萬筆追蹤 span 資料實驗出 8.6× 的壓縮率。此項成果來自對資料儲存與查詢流程的系統性優化，關鍵在於提升儲存密度與減少冗餘，以降低長期保存成本並維持查詢效能。

深度分析

在 RAG AI 答案引擎中被引用的決定因素：GEO 實驗證據

本研究在受控的檢索增強生成（RAG）環境中，探討哪些內容因子會讓來源在AI答案引擎輸出中被優先引用。研究以兩文件對決的實驗設計，把兩個候選來源同時注入模型上下文，並在六款大型語言模型上執行252,000次試驗，檢驗18項可控內容變數（含主題匹配、完整性、可信度、可讀性、競爭性與時效性）。

深度分析

Claude Code 與 OpenClaw：程式化 AI 代理的技術與治理挑戰

2025年以來，商用與開源的程式化AI代理迅速擴散。ClaudeCode與OpenClaw等工具讓代理能主動存取資料、長時間執行並協同子代理。結果是開發效率激增，同時帶來資安與治理風險，可能重塑工作與開發生態。並催生治理與工具化挑戰。引發政策與業界討論

速報

AION：將時間序列研究從固定基準推向真實任務的架構

時間序列研究正從只比預測精準度的固定基準，轉向必須處理時間約束、情境推理、工具運用與結構化決策支援的真實任務。論文提出 AION，一個由代理人、技能、規則、記憶、評估與協定組成的時序實驗架構，並以時間紮根、時間知識導向推理與可靠性機制（事後分析與分層審查）為設計核心。

深度分析

ProActor：以多時窗標註與 GRPO 優化時機感知的主動任務排程框架

在對話型助理從被動到主動的轉向下，ProActor提出以時機敏感強化學習優化任務排程。它以自動化跨域標註生成多元可行觸發時窗、設計衡量時機與動作一致性的指標，並用階段感知複合回報與GRPO進行對話回合級優化。實驗顯示能顯著改善觸發時機同時維持動作一致性。同時提出ART-F訓練框架以降低資源門檻，支援低位元量化與LoRA後訓練。

Latest

MobileGym：以結構化狀態與高平行性實現可驗證的行動 GUI 模擬平台

Claw-Anything：長時程、多服務、多裝置的個人助理評測基準

以 RHAE 衡量速度—深度權衡：AERA 在 ARC-AGI-3 的實驗與理論

L2IR：以LLM輔助GNN揭露圖結構詐欺的潛在意圖

跨城與多任務評估的 CityRep：以區塊式空間切分衡量表示泛化

面向 EFO_k 的 NS3：結合神經評分與預算化符號搜尋的可擴展聯合排序

AAI（Actuarial Action Interface）與 Authority Frontier：準備金驅動的代理人授權與風險管理

Jaeger + ClickHouse 在一千萬個 span 上達成 8.6× 壓縮：觀測資料儲存與查詢權衡

在 RAG AI 答案引擎中被引用的決定因素：GEO 實驗證據

Claude Code 與 OpenClaw：程式化 AI 代理的技術與治理挑戰

AION：將時間序列研究從固定基準推向真實任務的架構

ProActor：以多時窗標註與 GRPO 優化時機感知的主動任務排程框架