深度分析
政策梯度於長期累積傷害任務的完成度與最適性分解
研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效,提出分解診斷並在兩個不同職涯模擬(磚匠與NBA大前鋒)檢驗四項可測預測。結果顯示,授予地平線存取或限制動作空間能改善完成率,但仍遺留來自早期貪婪承諾的最適性缺口。
深度分析
研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效,提出分解診斷並在兩個不同職涯模擬(磚匠與NBA大前鋒)檢驗四項可測預測。結果顯示,授予地平線存取或限制動作空間能改善完成率,但仍遺留來自早期貪婪承諾的最適性缺口。
深度分析
MiniMax‑M2 系列提出以 Mixture‑of‑Experts(MoE)與「迷你啟動」為核心的設計路線,主張在每個 token 僅啟動小量參數即可達到實務級別的代理式智慧。
速報
本研究針對科學工作流中的資料整理與講義分析提出新框架。DeepTS/DeepCollector 自動收集、萃取與去除時間序列資料重複,DeepScribe 能將複雜物理課程轉為結構化報告。實驗顯示,結合本地 Body 與遠端 Brain 的混合架構,可克服現有 AI 系統的上下文與推理限制,提升科研流程效率。
Claude Code
GitHubExplorer發現awesome-claude-skills專案,整理大量ClaudeCode技能並以主題分類。專案以Python為主,提供技能開發流程、測試與文件範例,強調模組化與可重用性。結果是為開發者與代理人整合提供實用資源,促進社群協作與生產化採用。
model-compose
model-compose在GitHub上以單一YAML檔描述AI系統,借鏡docker-compose概念,將模型、代理與RAG管線視為可組合模組,強調可攜帶性與混合部署能力,幫助開發團隊降低供應商綁定風險並在本地、容器與生產環境間靈活遷移。
EDDI
GitHub出現一個設定驅動的會話AI中介軟體專案,聚焦多代理人協作與企業合規。專案以Quarkus與Java實作,原生支援MCP與A2A通訊,並整合RAG、持久記憶與多家LLM供應。它把使用者、代理與業務系統以設定化路由與API協調連接,降低整合門檻並便於生產部署與合規審查。
H‑Risk
研究從控制理論角度檢視幻覺現象,將康德認知架構比作反饋穩定機制。作者提出H‑Risk複合指標衡量閉環條件數與靈敏度,並在線性高斯系統與大型語言模型實驗中發現:結構性脆弱會導致過度自信和錯誤產生,對校準與幻覺診斷具實務啟示。並指向可選擇性降低過度自信的診斷與修正方向。
web-researcher-mcp
面對人工智慧捏造來源的挑戰,此工具讓使用者限定可信網站作為檢索範圍,能擷取全文並回傳可點擊引用連結。它支持多家搜尋供應者與多種檢索鏡頭,有助提升研究可驗證性並減少對封閉合成結果的依賴。專案以MIT授權釋出,使用Go開發並包含數項預設工具與擴充選項,旨在把研究流程回歸到可追溯的來源。
速報
面對以答案比對為主的評測不足,研究推出TRACE:一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡,能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡,並帶出新的觀察與見解。
ccgx-workflow
在開源社群發現一個多模型協作工具,Claude Code 擔任協調者,前端任務導給 Gemini、後端導給 Codex;採三層品質門檻、fresh‑context 子代理與 OS 級隔離,外部模型僅回傳補丁不直接寫入,強化審核與可控性,可能改變 AI 編程工作流程。
速報
臨床鑑別診斷仰賴醫師綜合病歷與醫學知識。研究團隊提出Dr.CaBot,一款代理式人工智慧系統,可從單一病歷描述自動產出有聲投影片並模擬專家書面與口述推理。盲評結果顯示醫師在多數試驗無法辨源,且在NIH未診斷病例測試中有顯著找出工作診斷的能力。
系統設計
「Awesome Architecture」是一個聚焦架構思維的雙語開源知識庫,收錄教學與 21 張真實系統的架構模板,涵蓋人工智慧閘道、RAG(檢索增強生成)、Agent 化設計、推理服務與向量資料庫等主題。