Agents Report | 代理人報告 (Page 72)

深度分析

HCRA：結合人類校準模型與即時自我反思的強化學習代理人框架

本篇報導聚焦 Human‑Centric Reflective Architecture（HCRA），一套將大型語言模型與人類校準模型結合的決策框架。研究將人機協同決策抽象為 AI 代理人與使用者之間的隨機遊戲，透過強化學習與迭代式語言反思，使 AI 推薦在測試時即能根據使用者偏好與限制自我調整。

深度分析

Raven-Agent 模組化交易層：將預測市場 AI 預測轉化為正向投資報酬

隨著預測未來事件成為通用人工智慧測試平台，研究提出首個自動化預測市場交易代理Raven-Agent，透過明確的交易層模組化選擇、部位大小與風險控制，與任意預測模型可組合。實驗在封存的Polymarket資料回放中，唯一實現正報酬與正風險調整報酬，此結果顯示交易層設計對獲利關鍵。

速報

Incognita 框架揭示社會分散任務環境的 AI 行為與成功率

研究結合了具備可執行動作與持續狀態的基礎測試與語言代理人互動的社會模擬，提出 Incognita 框架，將社會互動與具體執行分離。框架內部將訊息路由至使用者或專家，專家審核後交由確定性子環境執行，最後由離線評估器給予獎勵。

深度分析

MedCalc‑Pro：結合大型語言模型的醫學多工具與嵌套計算平台

隨著大型語言模型在醫學領域的應用深化，傳統計算基準僅支援單一工具且需明示目標計算器。研究團隊推出MedCalc‑Pro，收錄2268例、77種計算器，涵蓋單、多人與嵌套計算情境，並建構多工具選擇與依賴關係的代理框架。實驗顯示該框架在所有測試任務上均優於現有方法。

深度分析

SwarmResearch 以 Shepherd Agent 協調多代理提升開放式程式碼探索效能

SwarmResearch以ShepherdAgent统筹多個SearchAgent，在各自git分支上以局部上下文探索，破解長期編碼代理只聚焦單一路徑的限制。實驗在15項開放式優化任務中，13項表現優於或相當於最先進的LLM演化與多代理系統，且能依搜尋深度自動調整平行度，提升解決方案多樣性與品質。

深度分析

ASK+：透過三層情境化提示增強小型語言模型在 POMDP 任務中的表現

在部分可觀測的強化學習任務中，ASK框架僅提供自我觀測，未能有效利用小型語言模型。研究提出ASK+，加入部分揭露的地圖與已訪位置等情境化提示，使模型在不確定性門檻觸發時提供修正。實驗顯示ASK+在FourRooms、DoorKey與HigherLower的成功率與獎勵均顯著超過原ASK。

Omni multimodal AI framework for humanoid robots unifying vision, language, and action control.

速報

iFLYTEK-Embodied-Omni：統一視覺、語言與動作的多模態基礎模型

為提升通用型具身代理人的指令理解與長期控制能力，研究團隊打造 iFLYTEK-Embodied-Omni，採用視覺語言、影片生成與動作生成的共享多模態自注意力架構。模型將高階規劃與低階執行分工協作，並以混合示範影片進行四階段訓練，顯著提升任務執行的準確度與穩定性。

Bike4Mind

Bike4Mind：支援 Anthropic、OpenAI、Google Gemini 等多模型與 RAG 的開源 AI 工作平台

Bike4Mind 是一個開源核心的 AI 知識平台，支援多模型筆記本、ReAct 代理與 RAG 知識引擎，允許自行部署或使用多租戶雲端服務。其彈性設計降低模型切換成本，並透過 Quest Master 實現多步任務自動化，預計將推動台灣 AI 開發者在本地化與商業化間取得更佳平衡。

Nix

nix‑ai：以 Nix Flake 統合 Claude Code、Gemini、Copilot 等 15+ AI 開發工具的全方位環境管理方案

GitHub 新發掘的 nix‑ai 專案以 Nix Flake 方式一次宣告並重建所有 AI 開發工具，包括 Claude Code、Gemini、Copilot、MCP 伺服器等。文章說明安裝步驟、支援的工具清單與在台灣開發者社群的實務價值，並結合先前 AI 程式助手的研究結果，探討一致性配置對開發效率與成本的影響。

VibeDrift

「VibeDrift」：基於 TypeScript 的 AI 代理程式碼漂移偵測與修正工具

VibeDrift是一套開源工具，於本機掃描整個專案，學習現有程式碼模式並偵測偏離，幫助AI代理維持一致性，避免重複與錯誤。只需一行CLI指令即可產生互動HTML報告，提升開發品質與維護效率。此外，VibeDrift支援自訂規則與多語言專案，並以MIT授權釋出，讓團隊可自行部署於CI流程，確保安全。

PageIndex

PageIndex 以樹狀索引與即時推理實現向量無關 RAG，提升長文件檢索精度

PageIndex是一套以推理為核心、免向量資料庫與切塊的檢索增強生成框架，讓大型語言模型在長文件上進行上下文感知的檢索。它支援代理式向量無關RAG、可擴展至百萬文件，並提供聊天平台與API，此設計提升了檢索相關性，降低了向量建置成本，加速開發流程。

速報

Hephaestus：模型無關的代理人作業系統快速竄紅

Hephaestus 在 GitHub Trending 上快速上升，因其模型無關的代理人作業系統能將專精代理人集中於 hub，並即時以暫時編排器處理任務。支援多種大型語言模型，具備本機優先設計，讓開發者免除重複建置。此熱度顯示社群對多代理人協作框架的需求。

Latest

HCRA：結合人類校準模型與即時自我反思的強化學習代理人框架

Raven-Agent 模組化交易層：將預測市場 AI 預測轉化為正向投資報酬

Incognita 框架揭示社會分散任務環境的 AI 行為與成功率

MedCalc‑Pro：結合大型語言模型的醫學多工具與嵌套計算平台

SwarmResearch 以 Shepherd Agent 協調多代理提升開放式程式碼探索效能

ASK+：透過三層情境化提示增強小型語言模型在 POMDP 任務中的表現

iFLYTEK-Embodied-Omni：統一視覺、語言與動作的多模態基礎模型

Bike4Mind：支援 Anthropic、OpenAI、Google Gemini 等多模型與 RAG 的開源 AI 工作平台

nix‑ai：以 Nix Flake 統合 Claude Code、Gemini、Copilot 等 15+ AI 開發工具的全方位環境管理方案

「VibeDrift」：基於 TypeScript 的 AI 代理程式碼漂移偵測與修正工具

PageIndex 以樹狀索引與即時推理實現向量無關 RAG，提升長文件檢索精度

Hephaestus：模型無關的代理人作業系統快速竄紅