Agents Report | 代理人報告 (Page 11)

深度分析

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

RAG 系統面臨長上下文處理瓶頸，現有方法缺乏理論基礎。SCP 以合作賽局觀點，用 Shapley 值計算句子邊際貢獻，搭配 3M 參數的 Deep Sets 網路與蒙特卡羅採樣，實現可擴展的上下文排序與剪枝。實驗在多跳推理等任務上表現優異，並提供可解釋性。

深度分析

PlanFlip攻擊框架揭示多智能體系統規劃階段級聯放大漏洞

多智能體LLM系統的規劃階段存在致命安全漏洞。PlanFlip框架透過四種提示注入攻擊（目標置換、優先級反轉等），單次注入即可污染所有子任務。測試顯示GPT-5攻擊成功率達0.68，同質化管線的Critic完全無法察覺計畫被篡改，僅推理增強模型DeepSeek-R1能完全抵抗。

Open CoDesign

Open CoDesign：桌面原生開源設計工具，支援BYOK與多模型切換

Open CoDesign 是 MIT 授權的桌面原生 AI 設計工具，支援自帶 Claude、GPT 等模型，在本機產出原型與素材。它提供即時預覽與多格式匯出，對比雲端方案更具隱私與彈性，吸引超過 7,300 顆 GitHub 星，成為開發者擺脫單一模型鎖定的新選擇。

Meridian

Meridian 開源專案：橋接 Claude Max 訂閱與第三方 AI 編碼工具的代理層

Meridian 是一個開源橋接層，讓 Claude Max 訂閱能在 OpenCode、Aider 等第三方工具中使用。它基於 Claude Agent SDK，不繞過任何限制，僅轉換 API 格式。此專案為開發者提供更多工具選擇，同時尊重 Anthropic 的平台治理。

深度分析

Botmux 開源工具：橋接飛書與 AI 程式設計 CLI，實現多會話即時串流協作

GitHub Explorer 發掘的 Botmux 將飛書橋接至 Claude Code 等 AI 程式設計 CLI，每個會話獨立進程即時串流。不同於 Agent SDK 重構方案，它直接繼承 CLI 完整能力與迭代升級，支援多機器人協作與 Web 終端。此工具可能改變遠端開發協作方式。

CCG-Workflow

CCG-Workflow：以單一指令整合 Claude、Codex 與 Gemini 的多模型協作引擎

隨著 AI 編碼代理普及，單一模型在處理複雜任務時常面臨限制。CCG-Workflow 推出多模型協作引擎，透過單一指令自動分析意圖並編排 Claude、Codex 與 Gemini 協作執行。該工具將不同模型的強項整合至同一工作流，大幅降低開發者在多個 AI 工具間切換的成本，為 AI 驅動的軟體開發提供更高效的自動化協作路徑。

OmniRoute

OmniRoute 開源 AI 閘道：單一端點連接 271 家供應商，RTK 壓縮技術節省 89% 代幣

面對多模型 API 管理的複雜度，開源專案 OmniRoute 提供單一端點連接 271 家供應商，其中 90 余家為免費方案。該工具透過 RTK 與 Caveman 壓縮技術減少 15% 至 95% 的代幣消耗，並內建配額感知自動備援機制。此方案讓開發者能將主流 AI 編碼工具無縫接軌至免費模型，大幅降低開發成本並提升資源利用率。

深度分析

RL-Struct：用强化学习内化结构约束，实现可靠JSON输出

大型語言模型在生成 JSON 等結構化數據時常因機率性質而導致格式錯誤，形成結構鴻溝。研究團隊提出 RL-Struct 框架，透過多維度獎勵函數定義結構層級，並利用 GRPO 演算法在無 Critic 網路的情況下進行輕量化強化學習。結果顯示該方法能顯著提升小型模型的結構準確度與有效性，且模型會自發性地先掌握語法再學習語義。

深度分析

CAV-STIXGen：利用開源 LLM 將 CVE 漏洞描述自動化轉換為 STIX 威脅情報

聯網與自動駕駛車輛面臨複雜的軟硬體漏洞威脅，但 CVE 描述多為非結構化文字。研究團隊建構 CAV-STIXGen 資料集，評估多款開源大型語言模型將漏洞描述轉換為 STIX 結構化格式的能力。結果顯示 Phi-4 等模型在實體提取與弱點映射上表現強勁，能有效將漏洞資訊轉化為機器可讀的威脅情報，大幅提升車聯網資安分析效率。

深度分析

DADiff：以擴散模型量化生成軌跡偏差，突破強化學習Sim-to-Real動力學不匹配

強化學習在實作時常面臨模擬環境與現實世界動力學不匹配的挑戰。研究提出 DADiff 框架，將狀態轉移視為生成過程，利用擴散模型的生成軌跡偏差來量化域間差異，並透過修正獎勵函數或篩選數據來優化策略。實驗結果顯示，該方法在處理隨機動力學環境時性能優於現有方案，有效提升了策略的跨域適配能力。

深度分析

Muon 優化器在稀疏回饋代理強化學習中提升成功率達 88%

研究探討Muon優化器在稀疏回饋的長程代理強化學習中的表現，與AdamW於ALFWorld任務比較。結果顯示，在GiGPO設定下，僅對隱藏矩陣使用Muon可將驗證成功率提升約88%，且在較高學習率仍保持效能。Muon在GRPO與GraphGPO上亦有提升，於GraphGPO接近飽和時差距縮小。

深度分析

「ActiveVision」基準揭示大型多模態語言模型的主動視覺觀測瓶頸

研究指出人類視覺需主動觀測，推出 ActiveVision 基準測試大型多模態語言模型的迭代視覺推理能力。實驗發現即使最先進模型也只能正確解答約十分之一，且在多項任務上得分為零；相較之下三位人類受測者平均正確率達九十六點一百分比，顯示目前模型在主動觀測上仍有明顯不足。

Latest

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

PlanFlip攻擊框架揭示多智能體系統規劃階段級聯放大漏洞

Open CoDesign：桌面原生開源設計工具，支援BYOK與多模型切換

Meridian 開源專案：橋接 Claude Max 訂閱與第三方 AI 編碼工具的代理層

Botmux 開源工具：橋接飛書與 AI 程式設計 CLI，實現多會話即時串流協作

CCG-Workflow：以單一指令整合 Claude、Codex 與 Gemini 的多模型協作引擎

OmniRoute 開源 AI 閘道：單一端點連接 271 家供應商，RTK 壓縮技術節省 89% 代幣

RL-Struct：用强化学习内化结构约束，实现可靠JSON输出

CAV-STIXGen：利用開源 LLM 將 CVE 漏洞描述自動化轉換為 STIX 威脅情報

DADiff：以擴散模型量化生成軌跡偏差，突破強化學習Sim-to-Real動力學不匹配

Muon 優化器在稀疏回饋代理強化學習中提升成功率達 88%

「ActiveVision」基準揭示大型多模態語言模型的主動視覺觀測瓶頸