深度分析
MobileGym:以結構化狀態與高平行性實現可驗證的行動 GUI 模擬平台
MobileGym是一個在瀏覽器運行的輕量行動模擬環境,以結構化JSON表示完整環境狀態,聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉,並以確定性判定取代易錯的視覺大模型評分,支援低資源下的大規模並行訓練。
深度分析
MobileGym是一個在瀏覽器運行的輕量行動模擬環境,以結構化JSON表示完整環境狀態,聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉,並以確定性判定取代易錯的視覺大模型評分,支援低資源下的大規模並行訓練。
深度分析
Claw-Anything 提出一個面向始終在線個人助理的新評測框架,擴大代理能觀測與操作的數位範圍。此基準結合三大維度:長期活動紀錄、互相依存的後端服務,以及跨裝置的 GUI 與 CLI 互動;並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現,即便是最先進的閉源模型,在此環境下成功率遠低於既有基準;
深度分析
ARC-AGI-3要求代理在陌生回合式環境中靠互動發現規則與勝條。本文提出AERA三階段架構:EXPLORE/VERIFY/PLAN,以信念熵為探索門檻並用預算平衡速度與深度。實驗指出公開25場可被非智慧策略通過,而私有55場競賽提交達到RHAE=0.30,凸顯基準集的判別限制。
L2IR
在關係被偽裝的圖形詐欺場景下,傳統圖神經網路因鄰居聚合會稀釋詐欺訊號而面臨挑戰。L2IR提出以大型語言模型(LLM)逐一推理使用者行為與連結背後的意圖,產生意圖感知的節點與邊表示,並結合自適應自訓練於標註稀少情況下強化偵測。實驗顯示,在兩個真實世界資料集上,L2IR能作為多種GNN偵測器的外掛提升效能,AUPRC有可觀增益。
深度分析
城市表徵學習試圖把異質的城市觀測資料壓縮為可重用的空間嵌入,以支援不同下游任務與未來城市基礎模型。CityRep 提出一套統一可延伸的評測基準,透過空間單元對齊模組、區塊式空間切分,以及跨八座城市、八項任務的多樣任務組合,來衡量表示的跨情境泛化能力。實驗顯示:隨機切分會高估模型表現;
深度分析
知識圖譜經常不完整,對多個自由變數的存在性一階查詢(EFO_k)要求對元組進行聯合排序,卻因笛卡兒候選空間指數成長而難以擴展。
深度分析
自動化代理能直接造成資料庫更動、退款與付款等副作用。本研究提出精算行為介面(AAI),以每次副作用為單位做事前定價與準備金門檻,並用AuthorityFrontier量化不同準備金下釋放的代理權限。跨四個實驗場域顯示低準備金普遍拒絕,中等準備金逐步釋放,各域呈現不同的精算幾何。
Jaeger
Jaeger 團隊以 ClickHouse 作為後端儲存,針對一千萬筆追蹤 span 資料實驗出 8.6× 的壓縮率。此項成果來自對資料儲存與查詢流程的系統性優化,關鍵在於提升儲存密度與減少冗餘,以降低長期保存成本並維持查詢效能。
深度分析
本研究在受控的檢索增強生成(RAG)環境中,探討哪些內容因子會讓來源在AI答案引擎輸出中被優先引用。研究以兩文件對決的實驗設計,把兩個候選來源同時注入模型上下文,並在六款大型語言模型上執行252,000次試驗,檢驗18項可控內容變數(含主題匹配、完整性、可信度、可讀性、競爭性與時效性)。
深度分析
2025年以來,商用與開源的程式化AI代理迅速擴散。ClaudeCode與OpenClaw等工具讓代理能主動存取資料、長時間執行並協同子代理。結果是開發效率激增,同時帶來資安與治理風險,可能重塑工作與開發生態。並催生治理與工具化挑戰。引發政策與業界討論
速報
時間序列研究正從只比預測精準度的固定基準,轉向必須處理時間約束、情境推理、工具運用與結構化決策支援的真實任務。論文提出 AION,一個由代理人、技能、規則、記憶、評估與協定組成的時序實驗架構,並以時間紮根、時間知識導向推理與可靠性機制(事後分析與分層審查)為設計核心。
深度分析
在對話型助理從被動到主動的轉向下,ProActor提出以時機敏感強化學習優化任務排程。它以自動化跨域標註生成多元可行觸發時窗、設計衡量時機與動作一致性的指標,並用階段感知複合回報與GRPO進行對話回合級優化。實驗顯示能顯著改善觸發時機同時維持動作一致性。同時提出ART-F訓練框架以降低資源門檻,支援低位元量化與LoRA後訓練。