Agents Report | 代理人報告 (Page 44)

AppGenesisForge

AppGenesisForge：以 19 個 AI 角色與流程治理，打造工業級 AI 開發團隊

針對單一 AI 代理人在長流程開發中容易失控的問題，AppGenesisForge 推出一套基於 Claude Code 的 AI 團隊腳手架。該工具定義 19 個專業角色，並透過強制技能、硬阻斷鉤子與 DoD 清單將開發流程治理化。支援 Web 全棧與 Apple 原生開發，並整合多款主流模型，讓 AI 開發從依賴模型能力轉向依賴流程機制，提升軟體交付品質。

Infographic on LLM format sensitivity and prompt wrapper evaluation.

深度分析

提示詞封裝陷阱：FSI 指標揭露 LLM 評測中的「格式敏感度」危機

大型語言模型在基準測試中常因提示詞封裝格式的不同而導致分數劇烈波動。本研究引入格式敏感度指數 FSI 與解析敏感度指數 PSI，透過 14 萬次生成實驗分析多款模型在不同格式下的表現。結果發現部分模型在嚴格 JSON 格式下準確率近乎隨機，但在簡單分隔符號下表現優異，顯示格式遵循能力是影響評測結果的核心因素。研究呼籲業界應停止單一數值評測，改採多格式變異分析以確保結果真實。

Zero

開源 AI 編碼代理 Zero：支援多模型與 MCP 協議，實現本地端掌控權

隨著 AI 編碼工具普及，開發者對資安與掌控權的需求增加。開源專案 Zero 推出一款基於 Go 語言的終端 AI 編碼代理，支援超過 25 種大型語言模型提供者，並透過嚴格的沙箱政策與權限管理確保本地端執行安全。其會話數據完全儲存在本地且不進行遙測上傳，讓開發者能建立高度自定義且安全的 AI 編碼工作流，降低對單一平台的依賴。

Infographic defining AI Agent architecture: Model, Scaffolding, and Harness components.

深度分析

AI 代理核心術語：Harness、Scaffold 與模型完整解析

隨著AI代理快速發展，術語混亂；本文釐清model、scaffold、harness、agent等概念，說明它們在訓練與推論的分工，並指出正確用詞有助於系統設計與跨框架溝通，預期將推動更一致的開發與評估流程。比ClaudeCode、Codex框，說明harnessengineering企業AI代理自動化關鍵。

Infographic of JetBrains Mellum2: A 12B MoE model optimized for text and code processing workloads.

深度分析

JetBrains 發布 Mellum2：12 B MoE 模型提升文字與程式碼工作負載效能

JetBrains於2026年6月發佈Mellum2，這款12 B參數的Mixture‑of‑Experts模型專為文字與程式碼設計。模型每個token僅啟動約2.5 B參數，推理速度比同規模開源模型提升逾兩倍，且以Apache2.0授權釋出，提升部署彈性與成本效益。

Infographic of Differential Privacy (DP) synthetic data generation, showcasing workload-adaptive vs. workload-agnostic strategies, LLM, and Federated Learning.

深度分析

差分隱私合成資料技術全解析：工作負載導向、LLM 與聯邦學習的應用

隨著可公開的人類資料日漸枯竭，研究者轉向差分隱私合成資料以保護使用者隱私。差分隱私合成資料在保留原始資料統計趨勢的同時，提供嚴格的個人資訊保護，並可取代傳統的去識別化方法。此技術有望解鎖受限資料集，促進AI模型訓練與商業應用。未來結合聯邦學習與大型語言模型，將提升其實用性。

Infographic: Nadella warns of enterprise AI data risks, favoring owned data and open-source models.

深度分析

微軟執行長 Nadella 警示：AI 模型資料所有權與自建學習環境的重要性

AI企業使用大型模型時，會把自家機密資訊餵給模型提供者，可能成為未來競爭者。微軟執行長納德拉警告，企業付出金錢與資料雙重代價，建議保留資料所有權並採用開源或自建模型。此趨勢或改變AI生態。模型會從企業的指令與修正中學習，形成不可買的知識。納德拉主張企業在雲端建置學習環境使用模型切換層避免鎖定供應商。

深度分析

OpenEnv 開源平台：統一代理式強化學習環境與訓練標準

OpenEnv於2026年獲得多家AI巨頭支援，提供可與任意模型、工具串接的代理執行環境，採用Gymnasium風格API及HTTP/WebSocket通訊，讓訓練與部署更一致，並由Meta‑PyTorch、Nvidia等組織共同治理，期望成為跨平台標準。

深度分析

Hugging Face Kernels 全面升級：新增 kernel 倉庫類型、受信出版與代碼簽署強化安全

HuggingFaceKernels推出新「kernel」倉庫類型，加入受信出版者與代碼簽署機制，提升自訂核心的安全與可發現性，預計加速AI開發者採用與生態成長。同時，CLI被重新分離，支援Torch Stable ABI與Apache TVM FFI，為代理式核心開發提供基礎。

深度分析

DiScoFormer：結合 Transformer 的高維度密度與分數估計模型，提升 KDE 效能

Allen AI 推出的 DiScoFormer 以 Transformer 同時估算資料分布的密度與分數，訓練使用高斯混合模型生成的樣本。實驗在100維度上顯示密度誤差比最佳KDE低逾37倍、分數誤差減少約6.5倍，且記憶體需求更佳。此技術有望降低高維度分析成本，推動生成模型與科學模擬等領域創新。

速報

SLIDERS：以大型語言模型自動化系統性文獻回顧的證據表生成

系統性文獻回顧需大量蒐集與合成證據，手工製表耗時。SLIDERS 用大型語言模型自動生成證據表，抽取結構化資料與全文摘錄，並以自動對齊代理整合跨文件資訊、解決衝突，支援自然語言追問。測試在600萬至1100萬詞語料上正確率近90%，追問正確率分別為77.9%與58.3%。

速報

LLMbda：以來源追蹤防護大型語言模型代理的新型 Lambda 計算模型

隨著大型語言模型被廣泛用作代理，會面臨提示注入等安全風險。傳統防護多依賴雙模型架構與資訊流控制，卻難以保證完整性。研究團隊提出 LLMbda，一種未型別的 call‑by‑value lambda 計算模型，將來源追蹤、動態資訊流與隔離策略內建於語言層，並以 Lean 完成機器檢驗的安全性證明。

Latest

AppGenesisForge：以 19 個 AI 角色與流程治理，打造工業級 AI 開發團隊

提示詞封裝陷阱：FSI 指標揭露 LLM 評測中的「格式敏感度」危機

開源 AI 編碼代理 Zero：支援多模型與 MCP 協議，實現本地端掌控權

AI 代理核心術語：Harness、Scaffold 與模型完整解析

JetBrains 發布 Mellum2：12 B MoE 模型提升文字與程式碼工作負載效能

差分隱私合成資料技術全解析：工作負載導向、LLM 與聯邦學習的應用

微軟執行長 Nadella 警示：AI 模型資料所有權與自建學習環境的重要性

OpenEnv 開源平台：統一代理式強化學習環境與訓練標準

Hugging Face Kernels 全面升級：新增 kernel 倉庫類型、受信出版與代碼簽署強化安全

DiScoFormer：結合 Transformer 的高維度密度與分數估計模型，提升 KDE 效能

SLIDERS：以大型語言模型自動化系統性文獻回顧的證據表生成

LLMbda：以來源追蹤防護大型語言模型代理的新型 Lambda 計算模型

JetBrains 發布 Mellum2：12 B MoE 模型提升文字與程式碼工作負載效能