Agents Report | 代理人報告 (Page 34)

TOFFEE MCTS data agent trajectory synthesis system infographic.

深度分析

TOFFEE：結合蒙特卡羅樹搜尋與自適應成本模型的高品質資料代理人軌跡合成系統

隨著大型語言模型驅動的資料代理人在企業決策中的應用日增，TOFFEE利用蒙特卡羅樹搜尋與自適應模型選擇，自動合成高品質資料代理人軌跡，並在相同預算下提升合成品質與下游微調效能。系統支援前綴重用與預算感知成本模型，降低重複計算，在KramaBench與DSBench上超越OpenAI o3等模型。

深度分析

AI 滲透測試代理人評估協議：以漏洞驗證為核心的多目標實驗

隨著大型語言模型讓AI代理人能執行攻擊性安全任務，研究提出以驗證漏洞發現為核心的新評估協議，透過語意匹配與二分圖解決模糊對應，並在多目標多漏洞環境中證實可比傳統CTF基準更具實務參考價值，此協議同時納入效率指標，考量執行時間與成本，提供持續式真實漏洞庫以支援重複與累積評估。

TencentDB Agent Memory

TencentDB Agent Memory：Symbolic 短期記憶與分層長期記憶技術完整解析

TencentDBAgentMemory在GitHub Trending上升，提供Symbolic短期記憶與分層長期記憶。Mermaid符號壓縮工具日誌，降低逾60%Token使用，結合OpenClaw提升任務成功率約50%，Persona記憶正確率從48%升至76%。技術加速本地AI代理人效能。

Hermes Agent CN Desktop

Hermes Agent CN Desktop：基於 Tauri v2 與 Rust 的跨平台本機 AI 代理桌面應用

Hermes Agent CN Desktop 是由中文社群推出的跨平台 AI 代理桌面程式，採用 Tauri v2、Rust、React 與 TypeScript 建置，支援 Windows 與 macOS，提供工作台、主題切換與記憶管理等功能，快速在 GitHub Trending 竄升。

深度分析

MobCache：基於潛在空間與行動感知的高效大型語言模型移動模擬快取框架

隨著城市規劃與流行病學需求大量人類移動模擬，研究提出MobCache框架，利用可重建的潛在空間快取與行動感知解碼器，提高LLM模擬效率且保持多樣性。實驗顯示推論時間降低逾四成、成本下降近五成，品質與最先進方法相當。此技術預計降低城市模擬成本，促進隱私保護下的開放研究。

An infographic illustrating the Information Bound concept where optimal policy hiddenly contains n log m bits of environmental info, with details on MDPs, rewards, and AI safety applications.

深度分析

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

研究探討在受控馬可夫過程中，觀測一個對任意非恆定獎勵函數最優的確定性政策，可精確得知環境中 n 個狀態與 m 個動作所包含的 n·log m 位元資訊，並證明此上界適用於有限、折扣與平均獎勵等多種目標設定。此結果提供了對於「隱性世界模型」的資訊下界，對 AI 安全與策略可解釋性具有重要啟示。

深度分析

多領域測試時縮放：生成式結果驗證模型（gORM）超越過程驗證模型的實證分析

研究重新評估多領域測試時縮放的獎勵模型，發現生成式結果驗證模型在14個領域均表現最佳，挑戰以步驟為單位的精細監督假設，並指出長推理鏈與標籤噪聲是關鍵影響因素，此結果促使未來在法律、醫療等高風險領域的 LLM 部署，更傾向採用生成式結果驗證以提升可信度。

深度分析

DeepTravel 結合沙箱與階層獎勵的端到端代理式強化學習旅遊規劃框架

隨著大型語言模型可自行使用工具，研究推出DeepTravel框架，利用沙箱與階層獎勵模型訓練自動旅遊規劃代理人，框架採階層獎勵先驗證時空可行性，再以回合檢查細節，並透過失敗回放提升推理，實驗顯示小型模型超越前沿模型，提升行程品質，已於滴滴企業版上線，顯示此技術可加速小模型商業化。

Infographic summarizing 2026 enterprise AI orchestration trends and risks.

深度分析

AI 代理編排調查報告：Claude 主導平台、混合控制平面降低供應商鎖定風險

VentureBeat2026年調查顯示，企業正把AI代理編排集中於模型提供商平台，尤其以Anthropic的Claude為主。調查指出，多數所謂「代理」仍是單一提示的聊天機器人，真正的多步驟編排僅佔四分之一以下，且超過半數企業擔憂供應商鎖定。

深度分析

PalmClaw：將 LLM 代理人完整搬至 Android 手機端的開源框架

隨著大型語言模型代理人從桌面延伸至手機，PalmClaw 以原生手機框架直接管理記憶、工具與執行迴圈，將裝置功能以具結構參數的工具呈現。實驗顯示任務成功率提升約 11.5%，完成時間縮短逾 94%。此設計降低對雲端依賴，提升資安與使用者隱私。同時採用 AGPL 授權，鼓勵社群共同擴充多模態感測與自動化功能。

深度分析

J-space 與 Jacobian Lens：量化模型安全評估的內部辨識機制分析

研究針對量化語言模型的安全性，提出J‑space內部表示測量方法，透過JacobianLens在回應決策點讀取危險訊號，並以SafetyAUC、ComplianceAUC等指標比較FP、INT8、INT4量化層級。結果顯示部分模型安全辨識仍堅固，合規性提升可能增加危險指令違規回應，對未來模型部署與量化策略具重要啟示。

An infographic showing an audio Deepfake detection framework combining Wiener-Hopf prediction and lightweight 2D CNN.

深度分析

Wiener‑Hopf 線性預測結合輕量化 2D CNN 的音訊 Deepfake 偵測新框架

隨著合成語音技術快速進步，音訊Deepfake偵測成為多媒體鑑識關鍵。研究提出以Wiener‑Hopf線性預測結合輕量化2DCNN的可解釋設計，直接連結分類結果與聲學特性。實驗顯示在多項基準資料上達到與最先進模型相當的偵測率，同時計算量僅為其十分之二。

Latest

TOFFEE：結合蒙特卡羅樹搜尋與自適應成本模型的高品質資料代理人軌跡合成系統

AI 滲透測試代理人評估協議：以漏洞驗證為核心的多目標實驗

TencentDB Agent Memory：Symbolic 短期記憶與分層長期記憶技術完整解析

Hermes Agent CN Desktop：基於 Tauri v2 與 Rust 的跨平台本機 AI 代理桌面應用

MobCache：基於潛在空間與行動感知的高效大型語言模型移動模擬快取框架

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

多領域測試時縮放：生成式結果驗證模型（gORM）超越過程驗證模型的實證分析

DeepTravel 結合沙箱與階層獎勵的端到端代理式強化學習旅遊規劃框架

AI 代理編排調查報告：Claude 主導平台、混合控制平面降低供應商鎖定風險

PalmClaw：將 LLM 代理人完整搬至 Android 手機端的開源框架

J-space 與 Jacobian Lens：量化模型安全評估的內部辨識機制分析

Wiener‑Hopf 線性預測結合輕量化 2D CNN 的音訊 Deepfake 偵測新框架

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊