速報 - Agents Report | 代理人報告 (Page 45)

速報

大型語言模型從靜態生成走向實務決策支援。OracleProto建構可重現評估框架，將已解事件還原為具時間界限的預測樣本，採用截止對齊、時間遮蔽與洩漏偵測等措施。實驗於FutureX-Past衍生資料集與六款模型上執行，將殘餘洩漏降至1%等級，並提供可審計的跨模型比較介面。

速報

DaoCloud推出Enterprise5.0文件倉庫，聚焦Kubernetes生態與文件治理。內容以MkDocs撰寫並以GitOps與PR流程控管，支援多個Kubernetes版本。貢獻步驟含Fork、clone、修改、本地預覽與PR送審，強化文件可維護性與社群協作。

速報

一款名為mcpbr的開源工具，主打用真實GitHub Issues模擬負載來為MCP伺服器做基準測試。它採用Model Context Protocol（模型上下文協定）測試流程，透過簡單指令執行並產生詳細效能報告，支援跨平台。此方法能讓開發與運維更準確評估伺服器在實務情境下的表現與差異。

速報

在開源平台發現一個聚焦特定人工智慧平台的開源範本庫，收錄可用於軟體即服務的設計範例與應用程式介面文件。專案透過平台介面與模板化流程，協助開發者快速建立人工智慧應用並簡化原型部署。此資源具社群參與與實作導向，利於加速產品驗證與原型迭代。對於想快速驗證人工智慧概念的團隊是實用資源。

速報

Anthropic在GitHub提供一個skills倉庫示範AgentSkills讓Claude載入專門任務模組。Skills以資料夾與說明檔組織，涵蓋創意、技術與企業流程。部分範例採開源授權，另有文件產製工具為來源可用但非開源。提供開發者實作參考。

速報

在 GitHub 上發現一個高品質開源專案 Chinese-Word-Vectors，收錄超過一百組預訓練中文詞向量，包含密集向量與稀疏向量，並支援詞、ngram、字等多種表示與語境特徵。專案同時提供中文類比推理資料集 CA8 與評測工具，便於研究者比較內在與外在評估表現。

速報

迷因結合影像、文字與文化脈絡成為主要溝通與操弄媒介。研究提出MemeLens──一個統一的多語、多任務、附解釋的視覺語言模型，整合38個公開迷因資料集並統一為20項任務。實驗顯示：有效理解迷因需多模態訓練，語義類別差異大，且單一資料集微調易導致過度專精。

速報

研究指出，強化學習在提升大型語言模型推理能力時，常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境，並以自適應多環境訓練動態調整難度與環境集合，維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合，並帶來更穩定的長期訓練效果。

速報

人工智慧與隱私法規促使隱私保護型聯邦學習興起。本研究提出針對表格式敏感資料的工作流程，整合匿名化與差分隱私，形式化定義並偵測客戶端漂移以防止資料中毒，且以再識別風險為基礎為各端指派個人化差分隱私預算。結果顯示個人化預算可在兩項誤差指標上改善模型表現。

速報

Coopetition-Gym v1提出一套針對混合利害多智能體強化學習的基準平台。平台包含20個環境與四類機制，並提供可參數化獎勵層以分離收益與獎勵型態，便於消融分析。系統整合126種參考演算法與多種介面，並在四項歷史案例上驗證出高再現度，為連續動作混合動機研究建立可重複評測標準。

速報

Google 已經關閉實驗性服務 Project Mariner，官方頁面表示其技術已移轉至其他產品。Mariner 原用於在網頁上自動執行多步任務並行處理多項工作，具代理式操作能力；2024 年底首次公開，後續曾更新以提升同時處理任務數量。

速報

研究以一個迭代式多回合協商遊戲檢驗多代理大型語言模型（LLM）的互動能力。兩名代理人在共享資源上為各自私人專案協商，可驗證共同最優解；然而實驗發現，多數代理組合無法收斂到帕雷托最優。研究識別出四種失敗型態：缺乏共享互動歷史導致協調崩解；累積上下文引發僵化錨定；偏好表面公平（平均分）取代報酬最大化；