LLM - Agents Report | 代理人報告 (Page 3)

深度分析

LLM 驅動的動態 Stackelberg 多代理 MAC 協定：提升吞吐量與公平性

隨著無線網路需求多變，傳統手動設定的MAC協定已難以因應。研究以LLM結合近端策略最佳化，將上行排程建模為動態多追隨者Stackelberg博弈，產生語意化、可變長度的協定指令。模擬顯示吞吐提升77.6%，公平性提升65.2%，且能自適應使用者數量而無需重新訓練。

SAKE benchmark evaluation dashboard testing LLM software architecture design capabilities

深度分析

SAKE 基準測試揭示 LLM 在軟體架構設計的能力與盲點

軟體架構決策涉及複雜的品質權衡與系統約束，傳統 AI 基準測試難以衡量。研究人員推出 SAKE 基準測試，透過 2,154 個專家策劃的選擇題，針對 8 個架構類別與不同上下文長度評估 11 款主流大型語言模型。結果顯示模型整體準確率雖高，但在推理密集型任務中表現不一，揭示了 AI 擔任架構顧問的潛在限制。

深度分析

「ConCise」結論鏈壓縮：降低多步 RAG 服務 token 成本至線性級別

隨著大型語言模型服務採用多步檢索增強生成，跨輪上下文會快速膨脹，造成成本與延遲上升。ConCise以訓練免除的結論鏈取代原始文字累積，將token成長從O(N²)壓縮至O(N)，同時透過融合生成一次完成推理與結論。實驗顯示在三種模型與兩套基線上節省64.6%token，準確度衰減僅在可接受範圍。

深度分析

Mythos 前沿 LLM 與半自主代理：開放式資安的系統化未來

隨著Mythos與ProjectGlasswing推出，AI可在系統層面自動偵測與修補程式漏洞。其核心結合大規模語言模型、海量軟體資料與自動化修補框架，並以高運算資源提供近即時回應。此開放式架構降低攻防不對稱，促使資安防禦轉向社群共享與半自主代理。

Code Buddy

「Code Buddy」開源多模型 AI 編碼平台：TypeScript 與本地 Ollama 整合

Code Buddy 是一個開源的 AI 編碼代理，支援十五種大型語言模型（含 Claude、GPT、Gemini、Grok）與約百項開發工具，提供終端文字介面、Electron 桌面駕駛艙以及以本地 Ollama 為主的 24/7 自動化多代理艦隊，旨在降低開發者的工具整合門檻。

深度分析

EVOM：以 LLM 為設計代理的元演化框架自動探索 Actor‑Critic 架構

在深度強化學習中，傳統演員-評論家網路多依賴手工設計，EVOM利用LLM作為設計代理，透過雙層優化將架構程式演化，並以低階PPO評估快速篩選，最終在Ant-v4與HalfCheetah-v4上超越手工基線與隨機搜尋，展示元演化與語言模型結合的效能。

深度分析

Process Harness 提升舊有工作流：CUGA FLO 實作 Agentic BPM 與 Task‑Decision‑Flow

隨著大型語言模型快速進步，企業重新檢視流程自動化。本文提出「process harness」概念，透過Task‑Decision‑Flow模型在既有BPM引擎上加入TaskAgent、DecisionAgent與FlowAgent，實現結構合規下推理與流程調整。以貸款審批示範，證明可在不改動底層引擎前提下，兼顧規範彈性。

深度分析

LLM 驅動比較治理管線：ERC‑8004 DAO 與 Google A2A 企業協議之實證分析

隨著AI代理協議激增，治理結構缺乏實證研究。研究以LLM為基礎，比較ERC‑8004開放DAO與GoogleA2A企業治理的決策流程、討論主題與參與網絡。結果顯示兩者參與不平等與社群碎片化程度相近，開放治理在討論一致性上更密集。此發現為未來AI代理標準的公平治理提供參考。

AG2

從 AutoGen 演進而來的 AG2：完整 Python 生態與多代理協作平台

AG2（前身 AutoGen）是由志工維護的開源 AgentOS，使用 Python 開發，支援多大型語言模型與工具整合，可構建多代理協作與人機混合工作流程。專案正朝 v1.0 版前進，預計在未來版本中完成功能去舊與維護模式切換。截至目前，該專案已累積 4710 顆星與 659 次分支，顯示社群關注度持續提升。

AI 代理

「Agent Learning」開源平台全攻略：從 LLM 基礎到多代理與 LangGraph 實作路線圖

Agent Learning 是一個 MIT 授權的開源教學專案，提供系統化、實務導向的 AI 代理開發路線圖。內容涵蓋 LLM 基礎、檢索增強生成（RAG）、記憶體、工具呼叫、函式調用、代理工作流、LangChain、LangGraph、模型上下文協定（MCP）、多代理系統、評估、部署與代理強化學習（RL）。

VulnClaw

VulnClaw：結合 LLM 與 MCP 的全自動 AI 滲透測試平台

VulnClaw 是一套以大型語言模型（LLM）為核心、結合 Model Context Protocol（MCP）工具鏈與多項滲透測試 Skill 的開源 CLI。使用者只需以自然語言描述測試目標，系統即可自動完成資訊收集、漏洞偵測、利用驗證與報告產出四個階段。

深度分析

LLM 輔助後量子密碼學開發：防止安全編碼漂移的遊戲化修正框架

隨著量子威脅逼近，後量子密碼學開發需嚴守常時執行與側通道防護。研究提出以遊戲化方式結合LLM生成與安全評估，降低開發者對AI產出過度依賴的安全編碼漂移。實驗顯示可提升驗證頻率並抑制認知負債。相較於傳統靜態分析，此框架加入即時行為回饋與分數機制，預計將改變開發者安全文化。