Agent E

深度分析

Helicase 多代理 LLM：從不確定性量化到可稽核的供應鏈知識圖

Helicase 提出一套以大型語言模型驅動的多代理系統，專為供應鏈調查與結構推理設計。系統把複雜問題拆解成可執行動作，協調網路檢索、跨來源推理與程式代理，並以三層不確定性（行動、軌跡、記憶）追蹤證據與推論信心。

深度分析

Tail-Aware HiFloat4：針對 Wan2.2 的 W4A4 後訓量化（PTQ）校準策略

擴散式視覺生成面臨低位量化難題，Tail-Aware HiFloat4 在 Wan2.2 採用 HiFloat4 W4A4 做主線性層 PTQ，保留邊界模組高精度，並以活化尾部百分位統計建構通道遮罩以減緩極端值影響；多項畫質指標接近 BF16 基準，主體一致性仍是主要退化來源。

深度分析

HEAT-24 實驗顯示：LLM 代理對提示框架（harness）敏感度呈非單調性

研究以HEAT-24基準測試六款大模型與三種提示框架（輕量、平衡、嚴格）。比較提示結構對可靠性、失敗類型與延遲的影響。結果顯示harness敏感度非單調，應依模型類型與指令微調。並提出六類失敗分類與分層選擇建議，強調指令調教質量比參數數量更關鍵。

深度分析

政策梯度於長期累積傷害任務的完成度與最適性分解

研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效，提出分解診斷並在兩個不同職涯模擬（磚匠與NBA大前鋒）檢驗四項可測預測。結果顯示，授予地平線存取或限制動作空間能改善完成率，但仍遺留來自早期貪婪承諾的最適性缺口。

深度分析

MiniMax‑M2（MoE）：以迷你啟動、MTP 與 Forge 擴展 192K 上下文的代理式 AI 實務化

MiniMax‑M2 系列提出以 Mixture‑of‑Experts（MoE）與「迷你啟動」為核心的設計路線，主張在每個 token 僅啟動小量參數即可達到實務級別的代理式智慧。

速報

DeepTS 與 DeepScribe：利用本地‑遠端混合架構的自主 AI 科學工作流

本研究針對科學工作流中的資料整理與講義分析提出新框架。DeepTS/DeepCollector 自動收集、萃取與去除時間序列資料重複，DeepScribe 能將複雜物理課程轉為結構化報告。實驗顯示，結合本地 Body 與遠端 Brain 的混合架構，可克服現有 AI 系統的上下文與推理限制，提升科研流程效率。

Claude Code

awesome-claude-skills 專案分析：Claude Code 技能分類、開發流程與授權概覽

GitHubExplorer發現awesome-claude-skills專案，整理大量ClaudeCode技能並以主題分類。專案以Python為主，提供技能開發流程、測試與文件範例，強調模組化與可重用性。結果是為開發者與代理人整合提供實用資源，促進社群協作與生產化採用。

model-compose

model-compose：YAML 驅動的可組合 AI 工作流程與可攜式部署

model-compose在GitHub上以單一YAML檔描述AI系統，借鏡docker-compose概念，將模型、代理與RAG管線視為可組合模組，強調可攜帶性與混合部署能力，幫助開發團隊降低供應商綁定風險並在本地、容器與生產環境間靈活遷移。

EDDI

EDDI：以 Quarkus 與 Java 驅動的設定化多代理人會話中介軟體

GitHub出現一個設定驅動的會話AI中介軟體專案，聚焦多代理人協作與企業合規。專案以Quarkus與Java實作，原生支援MCP與A2A通訊，並整合RAG、持久記憶與多家LLM供應。它把使用者、代理與業務系統以設定化路由與API協調連接，降低整合門檻並便於生產部署與合規審查。

H‑Risk

H‑Risk 與閉環穩定性：從控制理論解析大型語言模型的幻覺與誤校準

研究從控制理論角度檢視幻覺現象，將康德認知架構比作反饋穩定機制。作者提出H‑Risk複合指標衡量閉環條件數與靈敏度，並在線性高斯系統與大型語言模型實驗中發現：結構性脆弱會導致過度自信和錯誤產生，對校準與幻覺診斷具實務啟示。並指向可選擇性降低過度自信的診斷與修正方向。

web-researcher-mcp

web-researcher-mcp：以 Go 與 MCP 實作可點擊來源與全文擷取

面對人工智慧捏造來源的挑戰，此工具讓使用者限定可信網站作為檢索範圍，能擷取全文並回傳可點擊引用連結。它支持多家搜尋供應者與多種檢索鏡頭，有助提升研究可驗證性並減少對封閉合成結果的依賴。專案以MIT授權釋出，使用Go開發並包含數項預設工具與擴充選項，旨在把研究流程回歸到可追溯的來源。

速報

TRACE：免參照多維評估框架檢視工具增強代理的推理軌跡

面對以答案比對為主的評測不足，研究推出TRACE：一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡，能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡，並帶出新的觀察與見解。

Helicase 多代理 LLM：從不確定性量化到可稽核的供應鏈知識圖

Tail-Aware HiFloat4：針對 Wan2.2 的 W4A4 後訓量化（PTQ）校準策略

HEAT-24 實驗顯示：LLM 代理對提示框架（harness）敏感度呈非單調性

政策梯度於長期累積傷害任務的完成度與最適性分解

MiniMax‑M2（MoE）：以迷你啟動、MTP 與 Forge 擴展 192K 上下文的代理式 AI 實務化

DeepTS 與 DeepScribe：利用本地‑遠端混合架構的自主 AI 科學工作流

awesome-claude-skills 專案分析：Claude Code 技能分類、開發流程與授權概覽

model-compose：YAML 驅動的可組合 AI 工作流程與可攜式部署

EDDI：以 Quarkus 與 Java 驅動的設定化多代理人會話中介軟體

H‑Risk 與閉環穩定性：從控制理論解析大型語言模型的幻覺與誤校準

web-researcher-mcp：以 Go 與 MCP 實作可點擊來源與全文擷取

TRACE：免參照多維評估框架 檢視工具增強代理的推理軌跡

TRACE：免參照多維評估框架檢視工具增強代理的推理軌跡