Agent E - Agents Report | 代理人報告 (Page 32)

Infographic of Smithers platform features for AI agent workflows.

AI 代理工作流程

Smithers：具觀測性與時間旅行功能的 AI 代理工作流程平台

GitHub Explorer 發掘的 Smithers 專案提供零設定的 AI 代理工作流程，支援多模型、即時觀測、斷點重啟與時間旅行功能。使用者只要以自然語言描述目標，編碼代理即可自動產生並執行工作流，並可在任何步驟上即時檢視、回溯或分支。此設計降低協調成本，提升程式碼品質，對台灣開發者社群的 AI 驅動開發流程具有顯著意義。

Infographic on AgentCheck, an LLM agent testing platform.

深度分析

AgentCheck：全流程 LLM 代理人故障注入、重現與修補測試平台

隨著LLM代理人廣泛部署，工具失效成為關鍵風險。AgentCheck以MCP伺服器為介面，先錄製正常回應，再注入十二種工具故障，提供可重現‑介入‑驗證的工作流程。實驗顯示最高代理人在120場景中通過105場，揭露沉默的資料品質錯誤是主要弱點，亦值得關注。

CPA-Manager-Plus

CPA-Manager-Plus：本機 AI 閘道觀測與成本治理平台（支援 OpenAI、Claude Code）

新開源專案CPA‑Manager‑Plus提供自建AI閘道監控，支援請求追蹤、成本分析與配額管理，結合Docker單容器部署，提升台灣開發者資源透明度與資安可控性。它同時兼容CPA/CLIProxyAPI與OpenAI相容閘道，並同步LiteLLM與OpenRouter的模型價格，免除手動更新。

Bike4Mind

Bike4Mind 開源核心 AI 知識平台：支援多模型工作區與自治代理

Bike4Mind 是以 TypeScript 打造的開源核心 AI 知識平台，支援多模型切換與 ReAct 風格自治代理，提供筆記本與 RAG 引擎。平台內建 Quest Master 可自動規劃多步任務，平行執行文字、程式、影像與網路搜尋，產出可重用成果物。使用者可自行部署或選擇多租戶雲端服務，提升本地化與商業化彈性。

PageIndex

「PageIndex」開源向量無關 RAG 框架：樹狀索引提升長文件檢索效能

PageIndex 是 VectifyAI 推出的開源檢索增強生成框架，拋棄傳統向量資料庫與切塊流程，改以樹狀索引結合即時推理。它支援代理式、向量無關的 RAG，能在百萬文件規模下保持高相關度，並提供線上聊天平台、MCP 與 API，降低向量化成本。

深度分析

Shippy 海事 AI 代理人：基於 OpenClaw 與 Claude Opus 的可靠與可擴充架構解析

Shippy是AI2為海事領域打造的高可靠性代理人，透過系統提示、技能檔與可配置的CLI抽象化SkylightAPI，確保答案可追溯與資料隔離。評估框架證實其在查詢與守護規則上表現穩定，將推動未來海域監控與環境平台的擴展。同時支援模型路由與跨執行緒記憶功能。

Infographic of PRISM Edit for LLM temporal fact editing.

深度分析

「PRISM Edit」：透過多義向量一次性編輯大型語言模型的時間性答案

隨著知識持續變動，傳統知識編輯會在時間上產生衝突。研究提出PRISM Edit以單一多義向量結合模型內建時間調制，無需改架構即可同時正確回應現行與歷史時間。實驗顯示在TimeConflict與CounterFact上TC提升23.3點、CRS提升33.7點，且速度超過兩倍。

深度分析

RepTran：基於差分演化的 Transformer FFN 搜尋式修復方法

隨著Transformer成為AI應用核心，其錯誤會影響系統可靠性。研究提出RepTran，結合變異性神經元分數與雙向分數，透過差分演化搜尋修正FFN權重。實驗顯示平均修復率達74.7%，顯著優於現有方法。在CIFAR-100與Tiny-ImageNet測試中，最高95.2%修復率，耗時約476秒。

深度分析

Resource2Skill：以多模態資源蒸餾可執行代理技能的全新方法

本研究提出 Resource2Skill 框架，透過自動化流程將教學影片、程式碼庫、文章與參考素材等多模態人類資源萃取為可執行的技能，並以階層式 Skill Wiki 組織。技能條目結合結構化文字、可執行程式碼與視覺範例，讓大型語言模型在執行軟體創作任務時能即時檢索、組合與補足缺口。

深度分析

利用細胞分割與同態加密抵禦向量對齊攻擊的 Shard 技術

近年向量嵌入外洩風險升高，研究提出Shard方案將中心化嵌入分為公開前綴與私密殘差，後者以多格密鑰逐格旋轉，並在CKKS下全維度重新排序。實驗顯示在五種編碼器上，Shard能在保持原始檢索品質的同時，使已知明文對齊攻擊所需錨點數提升至約256倍，且公開前綴泄漏的鄰近結構大幅降低。

深度分析

質數導向的模組算術嵌入技術——Prime Fourier Embeddings 理論與實驗

本研究針對模組算術的結構缺陷提出新嵌入方法。PrimeFourierEmbeddings以質數索引的cos、sin配對直接呈現餘數，並透過中國剩餘定理選取相關質數通道。實驗證實相關通道與無關通道的專精度差異超過500倍，全部測試模組均達到完美準確率。

深度分析

結合形式化規格與 LLM 的硬體生成：從需求到可合成 RTL 的逐步細化

隨著大型語言模型在軟體開發上的突破，硬體設計仍面臨錯誤風險。本研究提出結合形式化方法的逐步細化框架，讓LLM在每一步都受到可驗證規則約束，最終產生正確的RTL程式。實驗顯示此流程在VerilogEval基準上穩定生成符合規範的硬體描述。此技術有望加速晶片設計流程，降低人力成本。