速報 - Agents Report | 代理人報告 (Page 35)

速報

聯邦演員-評論家：共享子空間下的個性化強化學習收斂證明

面對環境異質與協同訓練挑戰，本研究提出聯邦演員-評論家架構，代理共享線性子空間並保留個性化策略，採單時尺度與馬可夫取樣。透過投影子空間更新、QR分解與條件混合分析，證明評論家誤差與策略梯度在代理數量上呈線性加速；實驗於聯邦Hopper-v5顯示比SinglePPO與FedAvgPPO有所提升。研究方法考慮不同轉移核和耦合學習動態，並提供細緻的馬可夫採樣下函數評估差異分析。

速報

GDS 與 DLR：用時序串接子策略優化少量資料微調

研究針對時變獎勵的馬可夫決策過程。提出GDS，證明可透過時序串接中間最適子策略還原全域最優。再提出DLR，後訓練學離散潛在路由，在少量資料微調上平均提升6.6百分點。機制分析顯示DLR學得結構化路由並具區分性因果角色。由此可見離散潛在基線普遍落後於監督微調。

速報

FHIR 上的多步推理：CodeAct 結合強化學習提升臨床問答正確率至 77%

本研究聚焦FHIR醫療資料互通，指出在醫療紀錄圖上做多步篩選與彙整的挑戰。團隊以多回合CodeAct代理結合自訂工具與強化學習後訓練，並用大型語言模型作為判準回饋以維持資料完整性；在FHIR-AgentBench基準上，整體答案正確率由50%提升至77%，且採用更小成本模型達成改進。報告同時提供端到端訓練與評估流程。

速報

ARES-LSHADE：LLM 驅動的複合差分進化在 GNBG 基準達成高精度表現

在GNBG基準競賽中，作者提出ARES-LSHADE，一種由LLM主導設計的複合差分進化演算法。技術重點為偵察式變異算子並整合自適應CMA-ES，及尊重黑盒限制的多起點L-BFGS-B拋光階段。自動化研究迴圈約三十次，最終在官方評測獲得510勝且18項函數達機器精度。

速報

S-AI-Recursive：以荷爾蒙閉環驅動的遞歸推理架構

研究提出一種生物啟發的稀疏人工智慧架構，將推理視為荷爾蒙驅動的遞歸閉環。該模型引入兩種荷爾蒙Clarifine與Confusionin，透過對抗調節反覆精鍊狀態並收斂到穩定平衡。完整數學證明包括李雅普諾夫穩定性與熵收縮定理。實驗在抽象與符號測試中，用不到一千萬參數達到具競爭力的表現。

速報

GraphFlow：以流程圖為可執行規格強化代理式人工智慧工作流程可靠性

背景：多步任務中小錯誤會迅速累積。GraphFlow將流程圖當作可執行規格，編譯時限定可重用圖形類別並產生合約（前置、後置、組合義務），執行時以追加式事件日誌記錄結果並支援重放與稽核。早期試點於三個臨床場域執行8728次，完成率97.08%。

速報

Falkor‑IRAC：以 IRAC 知識圖驅動的印度法律 AI

背景：法律推理非純語義檢索，裁判涉及先例傳播、程序狀態與法條推導。方法：Falkor‑IRAC以IRAC知識圖結構化判決，並用FalkorDB儲存節點與先例關聯；Verifier Agent僅接受可追溯圖路徑的生成。結果：在51份最高法院判決語料上，驗證器能正確識別並拒絕偽造引用。

速報

最小核心揭密：語言模型推理痕跡常見過度冗贅

研究針對語言模型產出的長推理痕跡是否過度冗長。作者提出「最小核心」概念，透過壓縮比、冗餘質量等指標，抽出保存答案或預測分布的最少步驟。結果顯示平均可刪除46%步驟且86%情況保留原答案，核心三步貢獻65%必要性。此外最小核心在區分正誤痕跡、降維與跨模型移轉上也有明顯改善。

速報

HEAR：以分層超圖本體強化企業級多跳推理與可審計智能

面對企業系統中大型語言模型的幻覺與多跳、n元推理失誤，HEAR提出分層超圖本體與證據驅動推理循環。其圖層管理來源並保存溯源，超邊層則以n元規則與程序化流程編碼商務邏輯。評估供應鏈問題時，HEAR在根因分析上最高達到94.7%準確率，並兼顧成本與審計可追溯性。

速報

LOOP SKILL ENGINE：以一次錄製與確定性回放改造週期性AI代理

人工智慧代理處理重複週期任務面臨成本與不確定性壓力。LOOPSKILLENGINE透過一次錄製與確定性回放，將首輪LLM推理的完整工具呼叫記錄轉為參數化且無分支的執行模板。後續執行完全繞開LLM：引擎即時替換模板變數後決定性重放工具序列。結果顯示成功率提升且大幅節省token。

速報

Raindrop 推出 Workshop：本地化 AI 代理人除錯與評估工具

觀測性新創 Raindrop AI 推出開源工具 Workshop，提供開發者在本機即時除錯與評估 AI 代理人的能力。工具以輕量化 .db 檔儲存每次代幣、工具呼叫與決策軌跡，並以本地 daemon 與儀表板串流顯示，通常可在 localhost:5899 檢視。

速報

Kolmogorov–Arnold 網路（KANs）：揭示訓練動態、泛化與差分隱私下的限制

研究聚焦Kolmogorov–Arnold網路（KANs）訓練理論。作者分析兩層KANs在梯度下降下的動態與泛化，並在NTK可分假設下以logistic損失為例，證明多對數寬度能達到1/T的優化率與1/n的泛化率；在(ε,δ)-差分隱私下效用界為√d/(nε)，顯示私有訓練對寬度有更嚴格要求。